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Resume du cours 


Ce cours d’introduction a la statistique descriptive de niveau LI a pour objet de 
donner les outils de bases permettant de decrire une population statistique. Une 
premiere section est consacree a la definition des termes habituellement utilises en 
statistique descriptive. Le chapitre 2 introduit I’outil de base d’analyse des chiffres : le 
tableau. Le chapitre 3 est consacre a la presentation des principales statistiques 
permettant de resumer une masse de chiffres. Le chapitre 4 traite des formules de 
base utilisees dans I’analyse des evolutions temporelles impliquant des grandeurs 
quantitatives. Le chapitre 5 complete les quatre chapitres precedents en decrivant 
I’eventail des graphiques statistiques. Le chapitre 6 peut etre congu comme une 
premiere etape vers la statistique mathematique, bien que restant rattache a la 
statistique descriptive : il presente les outils de base de I’analyse des tendances et 
des correlations. Enfin le chapitre 7 est essentiellement utile a 1‘etudiant en 
economie : il traite de la courbe de LORENZ et du coefficient de GIN I, deux outils 
complementaires dont les principales applications sont I’analyse de la plus ou moins 
grande egalite de la repartition d’une masse (de revenu, de richesse, de ressources, 
etc.) au sein d’une population. 


Pour toute question ou suggestion relative a ce cours, merci de m’adresser un mail a 
fabrice.mazerolle@univ-cezanne.fr 


Retrouvez d’autres cours gratuits sur le site : www.economie-cours.fr 
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Note sur les calculs et les arrondis : Dans le cours qui suit, pour limiter les erreurs 
deja trop nombreuses, les calculs sont toujours effectues a la machine ou avec un 
logiciel (EXCEL le plus souvent). Les resultats finaux imprimes sont presque 
toujours arrondis pour faciliter la lecture. Cependant lorsqu’un resultat necessite 
plusieurs calculs intermediaires, les calculs intermediates sont evidemment 
effectues par la machine ou par le logiciel en conservant toutes les decimales (dans 
la limite des capacites de la machine ou du niveau de precision choisi ou fixe par 
defaut), seul le dernier resultat etant arrondi « au plus proche » (methode de 
I’arrondi arithmetique). 

La methode de I’arrondi arithmetique consiste a choisir, a la droite de la virgule, le 
dernier chiffre a conserver, puis a augmenter ce chiffre d'une unite si le chiffre 
suivant vaut au moins 5 (« arrondissage par exces ») et a conserver ce chiffre si le 
suivant est strictement inferieur a 5 (« arrondissage par defaut ») 

Par exemple, 3,046 arrondis aux centiemes valent 3,05 (le chiffre suivant (6) est 
superieur a 5). 

Voici d'autres exemples en ne gardant qu'un seul chiffre significatif apres la virgule : 

• 1,349 devient 1,3 (car le chiffre suivant 3 est strictement inferieur a 5) 

• 1 ,350 devient 1,4 (car le chiffre suivant 3 vaut au moins 5) 

Cette methode est celle appliquee par defaut dans le logiciel « EXCEL 2007 » quand 
on choisit le nombre de decimales a partir des icones ci-apres : 


Microsoft Excel 



Nombre 


Nombre 



Miss en forme I 
conditiormelle T 


Voir I’article Wikipedia sur la notion d’arrondi pour un apergu des autres methodes 
d’arrondi : http://fr.wikipedia.org/wiki/Arrondi 


Les machines a calculer etant autorisees a I’examen, les etudiants sont invites a 
appliquer aussi cette methode. 
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Chapitre 1 

Vocabulaire de la statistique descriptive 


0 - Introduction 

1 - Definition du champ de la statistique descriptive 

2 - Terminoloqie 

A - Population et unites statistiques 
B - Echantillons et sous-ensembles d’une population 

1) Echantillon et population 

2) Repartition des unites statistiques selon differents criteres 
C - Criteres de classification 

1) Criteres quantitatifs 

2) Criteres qualitatifs 

3 - Modes de reqroupement des unites statistiques 

A - Serie simple 

B - Distribution par valeurs ou par modalites 

1) Distribution par valeurs 

2) Distribution par modalites 
C - Reqroupement par categories 

1) Categories de valeurs 

2) Categories de modalites 


4 - Resume 

0 - Introduction 

Ce chapitre presente le champ de la statistique descriptive et son vocabulaire de 

base. 

1 - Definition du champ de la statistique descriptive 

On divise generalement I'etude de la statistique generate en deux parties : 

• La statistique descriptive, qui est un ensemble de methodes permettant de 
decrire les unites statistiques (voir la section 2 pour une definition plus 
precise du terme " unite statistique ") qui composent une population (voir la 
section 2 pour une definition plus precise du terme " population "). 

• La statistique mathematique dont I'objet est de formuler des lois a partir de 
I'observation d'echantillons, c'est-a-dire de tirages limites effectues au sein 
d’une population. La statistique mathematique intervient dans les enquetes et 
les sondages. Elle s'appuie sur la statistique descriptive, mais aussi sur le 
calcul des probabilites. 
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Statistique 



\ 


Descriptive 


Mathematique 


Tableaux, graphiques, 
Statistiques resumees. 
nech e fche d e s corre lat io n s. 


Extrapolations de resultats 
d'echantillons pour fa ire des 
previsions basses sur ie 
calcul des probabilites 


etc. 


La statistique, qu’elle soit descriptive ou mathematique, est employee dans toutes 
les sciences, ainsi que dans la vie quotidienne. Son utilisation tres intensive dans le 
champ de I’economie a fait naTtre une nouvelle expression : L’econometrie. 
L’econometrie est I’application de la statistique (descriptive et mathematique) a la 
mesure et a I’etude chiffree des grandeurs economiques. De la meme fagon, on 
emploie parfois I’expression (un peu vieillie) de « sociometrie », pour parler de 
I’application de la statistique (descriptive et mathematique) a la mesure et a I’etude 
chiffree des grandeurs sociologiques 

2 - Terminologie 

A - Population et unites statistiques 

En statistique, la population designe un ensemble d'unites statistiques. Les unites 
statistiques sont les entites abstraites qui represented des personnes, des 
populations d'animaux ou des objets. Les premieres populations ayant fait I'objet 
d’un recensement ayant ete des populations humaines (d'ou le lien etroit entre 
statistique et demographie) le terme "individu" est parfois employe comme synonyme 
du terme "unite statistique". 



Population {35 pays) 


Unite statistique 
(1 pays 
parti ou Iter) 
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La statistique sert a decrire I'ensemble des unites statistiques qui composent la 
population. On commence par compter ces unites. La premiere information 
statistique que Ton tire d'une population est en effet le nombre de ses unites. 

Exemple : Le tableau 1 ci-apres qui contient des statistiques macroeconomiques 
relatives aux 27 pays de I’UE, plus huit de ses principaux partenaires commerciaux. 
L’unite statistique etant le pays, le tableau contient une population de 35 unites 
statistiques. 

Tableau 1 : Quelques statistiques macroeconomiques des pays de I’UE a 27 et 

de huit de ses partenaires commerciaux 


Pays 

Monnaie 
(au lerjanvier 
2009) 

Superficie 
(km 2) 

An nee 

d'adhesion 

Nombre 

de frontieres 

terrestres 

avec 

d'autres pays 
rie I’LIF a 77 

Population 
[habitants) 
estimation 
de juilllet 
2O07 

PIB 

en 

milliards 

de dollars 
US [2007) 

PIB en 

milliards 

de dollars 
PPA [2O07) 

Age 
median 
(estimation 
de juillet 
2007) 

Indice de fecondite 
(en nombre d'enfants par 
femme, estimation 2007) 

Allemagne 

Euro 

357021 

1956 

3 

S2400996 

3322 

2310 

43 

1.4 

Belgique 

Euro 

30523 

1956 

4 

10392226 

453,6 

373 

41,1 

1,64 

France 

Euro 

547030 

1956 

5 

63713926 

2560 

2047 

39 

1,93 

Italic 

Euro 

301320 

1956 

3 

53147733 

2105 

1736 

42,5 

1,29 

Luxembourg 

Euro 

2536 

1956 

3 

430222 

50,16 

33,6 

33,9 

1,73 

Pays-Bas 

Euro 

41526 

1956 

2 

16570613 

763,7 

639,5 

39,7 

1,66 

Danemark 

Couronne Danoise 

43094 

1973 

1 

5463120 

311,9 

203,7 

40,1 

1,74 

Irlande 

Euro 

70230 

1973 

1 

4109036 

253,6 

136,2 

34,3 

1,36 

Royaume-Uni 

Lrvre britannique 

244320 

1973 

1 

60776233 

2773 

2137 

39,6 

1,66 

Grece 

Euro (2001) 

131940 

1931 

1 

10706200 

314,6 

324,6 

41,2 

1,35 

Eapagne 

Euro 

504732 

19-36 

2 

40443191 

1439 

1352 

40,3 

1,29 

Portugal 

Euro 

92931 

1936 

1 

10642S36 

223,3 

230,5 

33,3 

1,43 

Autriche 

Euro 

S3S5S 

1995 

6 

3199733 

373,9 

317,3 

41,3 

1,37 

Finlande 

Euro 

337030 

1995 

1 

5233460 

245 

135,5 

41,6 

1,73 

Suede 

Couronne suedoise 

449964 

1995 

1 

9031033 

455,3 

334,6 

41 

1,66 

C hyp re 

Euro [2003) 

9250 

2004 

0 

733457 

21,3 

21,3 

35,1 

1,3 

Eaton ie 

Couronne estonienne 

45226 

2004 

1 

1315912 

21,23 

29,3 

39,4 

1,41 

Hongrie 

Forint 

93030 

2004 

4 

9956103 

133,4 

191,3 

33,9 

1,33 

Lettonie 

Lat 

64539 

2004 

2 

2259310 

27,34 

39,73 

39,6 

1,23 

Lituanie 

Litas 

65200 

2004 

2 

3575439 

33,35 

59,64 

33,6 

1,21 

Matte 

Euro [2003] 

316 

2004 

0 

401330 

7,419 

9,4 

39 

1,51 

Pologne 

Zloty 

312635 

2004 

4 

33513241 

420,3 

620,9 

37,3 

1,26 

Republiquetcheque 

Couronne tcheque 

73366 

2004 

4 

1022S744 

175,3 

243,9 

39,5 

1,22 

Slovaquie 

Euro (2009) 

4-3345 

2004 

4 

5447502 

74,99 

109,6 

36,1 

1,33 

Sloven ie 

Euro (2007) 

20253 

2004 

3 

20O3245 

43,03 

54,7 

41 

1,26 

Bulgarie 

Lev 

110910 

2007 

2 

7322353 

39,61 

33,3 

40,9 

1,39 

Roumanie 

Leu 

233391 

2007 

2 

22276056 

166 

245,5 

35,9 

1,33 











Suisse 

Franc suisse 

41290 


4 

7554661 

423,9 

300,2 

40,4 

1,44 











Etata-Unia 

Dollar 

9326630 


0 

301139947 

13340 

13340 

35,6 

2,09 

Chine 

Yuan 

9596960 


0 

1321351741 

3251 

6991 

33,2: 

1,75 

Inde 

Roupie 

3237592 


0 

1129366154 

1099 

2939 

24,3 

2,31 

Japon 

Yen 

377335 


0 

127433494 

4334 

4290 

43,5 

1,23 

Ruaaie 

Rouble 

17075200 


5 

141377752 

1236 

2033 

33,2 

1,39 

Taiwan 

Dollar talwana is 

35930 


0 

22353372 

333,3 

695,4 

35,5 

1,12 

Hong Kong 

Dollar de Hong Kong 

1092 


0 

6930412 

206,7 

292,3 

41,2 

0,93 











Monde 


510072000 



6602224175 

54320 

65610 

23 

259, 

1 ... 

Source : The World Fact Book, htt ps://www. tia.gov/library/publkat ions/t he-world-fact book/indea.html 

Not= 1 1 * P 1 Bprime a n dollars PPAou Dollars d a Paritede Pouvoird Achat r-^fl-^t-* rnieux la realite car it ehmine l^sfluctuation d^taux de change 

On vo it ainsi qu'en 2007, la Chine a le second PIB du monde an termes de dollars FPA, alors qu'elle apparait au 4eme rang lorsque son PI B ast avalua an dollars cou rants. 

Pour plus da details sur la signification et la met hade de calc ul dutaux de change PFA, 

voirhttp://mvw.oecd.org/document/47/0,2340,en 2549 34357 35202S53 111 1,00.html 
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B - Echantillons et sous-ensembles d’une population 
1) Echantillon et population 

II est frequent que Ton preleve un echantillon dans une population statistique. Le 
diagramme d’EULER ci-apres decrit le lien entre I’echantillon et la population. 

Le lien entre I’echantillon et la population 



En general, on parle d’echantillon d’une population statistique quand les unites 
statistiques sont tirees au sort ou alors choisies par une methode qui permet 
d’assurer la representative de I’echantillon par rapport a la population totale. 
Cependant, ces definitions ne concernent plus directement la statistique 
descriptive mais plutot la statistique mathematique. 

2) Repartition des unites statistiques selon differents criteres 

Par ailleurs, il est frequent aussi que Ton divise une population en sous-ensembles 
au moyen de certains criteres (ou dimensions ou encore caracteristiques). 

Prenons pour exemple la population des 35 pays du tableau 1 . Ces 35 pays sont les 
unites statistiques du tableau. Nous souhaitons par exemple « decouper » cette 
population entre trois sous ensembles, suivant les criteres de la monnaie utilisee et 
I’appartenance a I’UE 27. 



On aura done, comme I’illustre le schema ci-apres : 

• 16 pays membres de I’UE 27 qui font partie de la zone Euro au 1 er janvier 
2009, 

• 11 pays membres de I’UE a 27 qui ne font pas (encore) partie de la zone Euro 
au 1 er janvier 2009 

• 8 pays partenaires de I’UE 27 et qui utilisent d’autres monnaies. 

Les 35 pays du tableau 1 repartis selon deux criteres 


Euro Autres monnaies 


UE 


Non-UE 



C - Criteres de classification 

Nous avons vu dans I’exemple precedent que les unites statistiques d’une population 
pouvaient etre regroupees suivant des dimensions ou criteres. Ces criteres sont 
choisis en fonction de ce qui interesse le statisticien. 




Chaque unite statislique 
foavsV est d&Cfite par des 
Norn, monnaie 
superfreie,. 
population, PIB, etc. 


Population (35 pays) 


Unite statislique 
(1 pays 
parttculier) 
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On distingue deux sortes de criteres : 

• Les criteres quantitatifs 

• Les criteres qualitatifs 

1) Criteres quantitatifs 

Les criteres quantitatifs sont les criteres qui sont represents par des nombres et 
sur lesquels les operations arithmetiques de base ont un sens. Les criteres 
quantitatifs sont souvent appeles variables. 

Par exemple, dans le tableau 1 , on peut voir que la superficie est un critere de 
classification quantitatif. C’est une variable dont les differentes occurrences sont 
des valeurs. Chacune des 35 unites statistiques de notre population est caracterisee 
par une valeur differente. La superficie est done, dans notre cas particulier, une 
variable qui prend 35 valeurs differentes. C’est un cas particulier dans lequel le 
nombre de valeurs de la variable est egal au nombre des unites statistiques de la 
population. Nous verrons que dans des cas de ce type (ou bien lorsque le nombre de 
valeurs possibles, bien qu’inferieur au nombre d’unites statistiques de la population, 
est grand) un regroupement par classes de valeurs est generalement effectue. 

Les criteres quantitatifs ou « variables » permettent de faire des calculs. On peut par 
exemple additionner les superficies, fa ire le rapport de la plus grande superficie a la 
plus petite, calculer des moyennes, etc. 

2) Criteres qualitatifs 

Les criteres qualitatifs sont tous les criteres qui ne sont pas represents par des 
nombres 1 . Pour les distinguer des variables, on les appelle des « caracteres ». Les 
caracteres prennent des modalites. 

Par exemple, dans le tableau 1 , on peut voir que la monnaie utilisee dans chaque 
pays est un critere qualitatif qui possede 20 modalites. Ces modalites sont les 
differentes monnaies. II y a en effet 16 pays qui ont la modalite « euro » et les 19 
autres qui ont chacun pour modalite une monnaie differente. On voit done dans cet 
exemple que le nombre de modalites (20) est inferieur a celui de la population (35). 


1 Ou qui sont parfois codes par des nombres sur lesquels les operations arithmetiques de base n’ont 
pas de sens (ou un sens tres limite). II est frequent par exemple de coder des opinions. 
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3 - Modes de regroupement des unites statistiques 
A - Serie simple 

Le tableau 1 est un tableau dans lequel les donnees n’ont pas ete regroupees. C’est 
un tableau de donnees brutes. Nous pouvons lire pour chaque ligne les differentes 
valeurs ou modalites des variables ou des caracteres associes a chacune des 35 
unites statistiques de la population. Chaque colonne correspond a une serie 
simple de valeurs ou de modalites. 

Par exemple, dans le cas de la variable « superficie », il y a 35 valeurs differentes. 
Dans le cas du caractere « monnaie », il y a 20 modalites. Dans le cas de la variable 
« nombre de frontieres terrestres avec d’autres pays de I’UE a 27 », les 35 pays se 
repartissent seulement sur 8 valeurs (si Ton exclut la valeur « 7 » ) ou 9 valeurs (si 
Ton inclut la valeur « 7 ») 2 . 

Mais une presentation exhaustive, dans laquelle aucun regroupement n’est effectue, 
n’est pas toujours pratique. Le plus souvent les donnees sont collectees et entrees 
dans I’ordinateur sous forme d’un tableau brut), puis elles sont regroupees. 

B - Distribution par valeurs ou par modalites 

Suivant que le critere est une variable ou un caractere, on peut effectuer un 
regroupement par valeurs ou un regroupement par modalites. Dans ce cas, on parle 
de distribution. En effet, la serie initiale des 35 donnees va etre distribute sur un 
nombre generalement inferieur (ou au maximum egal), de valeurs ou de modalites. 


2 La valeur « 7 » etant associee a un effectif nul, on peut decider de I’inclure (et dans ce cas il y a 9 
valeurs) ou de ne pas I’inclure (et dans ce cas il y a 8 valeurs). Si la nomenclature des valeurs de la 
variable est amenee a servir pour plusieurs populations successives (ou une meme population a 
differents temps), il vaut sans doute mieux, pour faire d’eventuelles comparaisons entre les 
populations ou les temps, inclure toutes les valeurs, y compris celles associees a un effectif nul, car 
I’effectif associe a une valeur peut changer selon la population et/ou le temps. Mais ceci ne vaut que 
si le nombre de valeurs possibles de la variable n’est pas trap important (sinon il faut proceder a un 
regroupement par classes de valeurs), denombrable et fini. C’est le cas pour la variable « nombre de 
frontieres». Cependant, certaines variables peuvent avoir un nombre infini (denombrable ou 
indenombrable) de valeurs. Elles sont alors dites continues (par opposition aux variables non 
continues qui sont dites « discretes » du fait d’une traduction abusive de I’anglais). Cependant, les 
populations (population = base de donnees) etudiees concretement (populations pour lesquelles des 
donnees quantitatives ont ete reunies) sont toujours finies. Par consequent, au sein d’une base de 
donnees, le nombre effectif de valeurs (c’est -a-dire le nombre de valeurs au sein de la population 
associees a un effectif non nul) qu’une variable peut prendre est toujours denombrable et fini et au 
maximum egal au nombre d’unites statistiques contenues dans la base de donnees (ou population). 
En effet, chaque unite statistique ne peut etre caracterisee que par une seule valeur de la variable et 
done le maximum que Ton puisse avoir est une distribution ou chaque valeur a pour effectif 1, ce qui 
correspond au cas oil chaque unite statistique est caracterisee par une valeur differente de la 
variable. La distinction entre variable discrete et variable continue s’appuie aussi sur une autre 
justification, que nous mentionnons bien qu’elle nous paraisse source de confusion : une variable est 
dite a valeurs discretes lorsque les valeurs peuvent etre comptees et est dite a valeurs continues 
lorsque les valeurs peuvent etre mesurees. En se referant a cette distinction, on dira alors que le 
nombre de pieces d’un appartement est une variable discrete car on peut compter le nombre de 
pieces. En revanche, si on veut savoir combien mesure chaque personne d’un echantillon ou d’une 
population, on procedera a une mesure de la taille (idem pour le poids), mesure qui d’ailleurs sera 
toujours imprecise, car relative a I’instrument de mesure utilise. 
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1) Distribution parvaleurs 

Prenons I’exemple de la variable « nombre de frontieres terrestres avec d’autres 
pays de I’UE a 27 » dans le tableau 1 . 

Un regroupement des 35 unites statistiques pour chacune des valeurs possibles de 
la variable donnera alors le tableau suivant: 

Distribution des pays des pays du tableau 1 selon leur nombre de frontieres 
terrestres avec les pays de I’UE a 27 






Nombre 

de frontieres terrestres 

avec 

d’autres pays 
de I’UE a 27 

Effectifs 










0 

3 










1 

8 





Distribution sur 9 valeurs (la vale 

:ur 


2 

6 





7 nmirrait pvpntiipllpmpntptrp 



3 

3 





rptirppdutahiPAU. 

mpiq cpJa 



4 

S 





creen 

ait Lino HkmntinLiitol 



5 

2 









6 

1 










7 

0 



s effectifs de 

a 






8 

1 


La somme de 






35 

4- 

distribution estegal a 35, Ie 






popufationtotale 



2) Distribution par modalites 

Dans le tableau 1 . nous allons choisir la monnaie officielle utilisee dans chaque pays 
comme critere qualitatif pour effectuer un regroupement par modalites. Au 1 er 
janvier 2009, 16 sur les 35 pays sont dans la zone euro et les 19 autres utilisent leur 
monnaie nationale. Dans ces conditions, un regroupement par modalites, quoique 
peu utile, donnerait le resultat suivant: 


Monnaie 

Effectifs 

Euro 

16 

Couronne danoise 

1 

Livre britannique 

1 

Couronne suedoise 

1 

Couronne estonienne 

1 

Forint 

1 

Lat 

1 

Litas 

1 

Zloty 

1 

Couronne tcheque 

1 

Lev 

1 

Leu 

1 

Franc suisse 

1 

Dollar 

1 

Yuan 

1 

Roupie 

1 

Yen 

1 

Rouble 

1 

Dollar taiwanais 

1 

Dollar de Honq Konq 

1 


35 unites 
distributes 
sur 20 
modalites 
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C - Regroupement par categories 

Lorsqu’il y a beaucoup de valeurs ou de modalites, on peut proceder a un 
regroupement par categories de valeurs ou par categories de modalites. 

1) Categories de valeurs 

Prenons I’exemple de la variable « superficie » dans le tableau 1 . Un regroupement 
des 35 unites statistiques pour chacune des valeurs possibles de la variable 
donnerait un tableau avec 35 valeurs, ce qui n’aurait aucun interet. En revanche, on 
peut creer des classes de valeurs pour les superficies et repartir les 35 pays a 
I’interieur de ces classes. Comment proceder sachant que le plus petit pays (Malte) 
n’a qu’une superficie de 316 km 2 et le plus grand pays (La Russie) est caracterise 
par une superficie de 17 075 200 km 2 ? Si Ton regarde les superficies des differents 
pays, on voit qu’un tres grand nombre de pays ont des superficies inferieures a 
600 000 km 2 . Pour le faire apparaTtre, classons les pays par ordre croissant de 
superficies (voir le tableau ci-apres) 
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Regroupement des pays par categories de superficies 


Pays 


Malte 


Hong Kong 


Luxembourg 


Chypre 


Slovenie 


Belgique 


Taiwan 


Suisse 


Pays-Bas 


Danemark 


Estonie 


Slovaguie 


Lettonie 


Lituanie 


Irlande 


Republigue tchegue 


Aut riche 


Portugal 


Hongrie 


Bulgarie 


Grece 


Roumanie 


Royaum e-Uni 


Italie 


Pologne 


Finlande 


Allemagne 


Japan 


Suede 


Espagne 


France 


Inde 


Chine 


Etats-Unis 


Russie 


Superficie 
1 k m 2) 


316 


1 092 


2 586 


9 250 


20 253 


30 528 


35 980 


41 290 


41 526 


43 094 


45 226 


48 845 


64 589 


65 200 


70 280 


78 866 


83 858 


92 931 


93 030 


110 910 


131 940 


238 391 


244 820 


301 320 


312 685 


337 030 


357 021 


377835 


449 964 


504 782 


547 030 


3 287 592 


9 596 960 


9 826 630 


17 075 200 


[0-50 000] 


Transformation de la serie 
simple en distribution par 
classes devaleurs 


]50 000 - 100 000] 



Les classes sontd'amplitudes 
inegales 


Superficie (km2) 

Effect ifs 

Amplitude de classe 
(km2) 

[0 -50 000] 

12 

50 000 

150 000 - 100 000] 

7 

50 000 

1100 000 - 600 000] 

12 

500 000 

1600 000 - 18 000 0001 

4 

17 400 000 


1100 000 - 500 000] 


L'amplitude d'une classe est 
egale a la difference entre 
I'extremite superieure et 
text re mite inferieure 



1500 000 - 18 000 000] 
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Decoupage du monde en zones selon les categories de I’OMC 



Amerique du Word 

Amerique du sud 
et centrals 


Europe 


Communaute d'Etats 
Independants fCEl) 

Afrique 

Moyen-Orient 

Asie 


Source : OMC, http://www.wto.org/enqlish/res e/statis e/its2007 e/its07 world maps e.pdf 







2) Categories de modalites 


Prenons I’exemple du caractere « pays » dans le tableau 1 . Un regroupement des 
35 unites statistiques pour chacune des modalites possibles du caractere donnerait 
un tableau avec 35 modalites, ce qui n’aurait aucun interet. En revanche, on peut 
creer des classes de modalites pour les pays. On peut par exemple repartir les 35 
pays selon categories proposee par I’Organisation Mondiale du Commerce (voir 
carte precedente). Si Ton regroupe nos 35 pays selon ces 6 categories on obtient le 
tableau suivant: 

Regroupement des pays selon des categories geographiques 


Categories continents les 

Effectifs 

Pays inclus 

Europe 

23 

UE a 27 + Suisse 

Amerique du Nord 

1 

Etats-Unis 

Comrrmnaute d'Etats Independants 

1 

Russie 

Afrique 

0 


Moyen-Orient 

0 


Asie 

5 

Chine, Inde. Japon, Taiwan. Hong-Kong 


A noter qu’il s’agit bien d’un regroupement par categories de modalites car chaque 
pays est en lui-meme une modalite. 

4 - Resume 

La statistique descriptive est un ensemble de methodes permettant de decrire les 
unites statistiques qui composent une population 

La statistique mathematique s'appuie sur la statistique descriptive, ainsi que sur les 
probabilites pourformuler des lois a partirde I'observation d'echantillons. 

L’econometrie est I’application de la statistique (descriptive et mathematique) a la 
mesure et a I’etude chiffree des grandeurs economiques. 

En statistique, la population designe un ensemble d'unites statistiques. Les unites 
statistiques sont les entites abstraites qui represented des personnes, des 
populations d'animaux ou des objets. 

On parle d’echantillon d’une population statistique pour designer le prelevement, au 
hasard ou selon une methode qui permet d’assurer la representative par rapport a 
la population totale, d’un petit nombre d’unites statistiques au sein de la population. 

Par ailleurs, il est frequent aussi que Ton divise une population en sous-ensembles 
au moyen de certains criteres (ou dimensions ou encore caracteristiques). 

On distingue deux sortes de criteres : les criteres quantitatifs et les criteres 
qualitatifs. Les criteres quantitatifs sont les criteres qui sont represents par des 
nombres et a condition que les operations arithmetiques effectuees sur ces nombres 
aient un sens. C’est la raison pour laquelle on les appelle aussi parfois des 

variables. 












Les criteres qualitatifs sont tous les criteres qui ne sont pas represents de fagon 
numerique. Pour les distinguer des variables, on les appelle des « caracteres ». Les 
caracteres prennent des modalitts. 

Les unites statistiques d’une population peuvent etre representees sous forme d’une 
strie simple ou regrouptes. Lorsqu’elles sont regroupees on les appelle des 

distributions. 

Les unites d’une population peuvent etre distributes par valeurs (lorsque le critere 
de regroupement est numerique) ou distributes par modalitts (lorsque le critere 
de regroupement n’est pas numerique). On peut aussi effectuer des regroupements 

par cattgories (ou classes) de valeurs ou par cattgories (ou classes) de 
modalitts. 

Lorsqu’on effectue une distribution par categories ou classes de valeurs, on peut 
choisir des classes d’tgales amplitudes ou des classes d’intgales amplitudes. 
L’amplitude de classe est la difference entre la valeur superieure et la valeur 
inferieure de la classe. Le centre de classe est egal a la somme de la valeur 
inferieure et de la valeur superieure, divisee par deux. 
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0 - Introduction 


Les tableaux sont un moyen souvent indispensable, en tous cas tres utile, de 
classification et de presentation des unites d’une population statistique. 

Ce chapitre evoque les differents modes de presentation d’un tableau statistique, de 
la serie brute jusqu’au tableau croise multidimensionnel. 

1 - Series brutes ou vecteurs 


Avant meme d’etre presentees sous forme de tableau, les donnees sont parfois 
presentees sous forme de series brutes ou de vecteurs. 

Prenons I’exemple de la variable « nombre de frontieres terrestres avec d’autres 
pays de I’UE a 27 » dans le tableau 1 . On peut la representer sous la forme d’un 
vecteur de donnees, egalement appele serie. 


Serie « nombre de frontieres terrestres avec d’autres pays de I’UE a 27 » : 

SI ={8,4, 5, 3, 3, 2,1, 1, 1, 1,2, 1 ,6, 1, 1,0, 1,4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0, 
5, 0,0} 


A - series classees et non classees 


SI est une serie non classee. Considerons maintenant la serie S2, qui elle, est une 

serie classee par ordre croissant 


S2 : {0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 
5, 5, 6, 8} 


B - Series identifies et non identifies 


En revanche, ni SI, ni S2 ne sont des series identifies. Pour qu’elles soient 
identifies, il faudrait creer des couples de valeurs. 

Ainsi, la serie S3 ci-dessous est une serie identifiee, non classee : 

S3 = {{Allemagne, 8}, {Belgique, 4}, {France, 5}, {Italie, 3}, {Luxembourg, 3}, {Pays- 
Bas, 2}, {Danemark, 1}, {Irlande, 1}, {Royaume-Uni, 1}, {Grece, 1}, {Espagne, 2}, 
{Portugal, 1}, {Autriche, 6}, {Finlande, 1}, {Suede, 1}, {Chypre, 0}, {Estonie, 1}, 
{Flongrie, 4}, {Lettonie, 2}, {Lituanie, 2}, {Malte, 0}, {Pologne, 4}, {Republique 
tcheque, 4}, {Slovaquie, 4}, {Slovenie, 3}, {Bulgarie, 2}, {Roumanie, 2}, {Suisse, 4}, 
{Etats-Unis, 0}, {Chine, 0}, {Inde, 0}, {Japon, 0}, {Russie, 5}, {Taiwan, 0}, {Flong 
Kong, 0}} 


20 



Enfin, la serie S4 ci-dessous est une serie identifiee et classee par ordre croissant 
du nombre de frontieres terrestres avec d’autres pays de I’UE a 27 : 

S4 = {{Chypre, 0}, {Malte,0}, {Etats-Unis,0}, {Chine,0},{lnde,0}, {Japon,0}, {Taiwan,0}, 
{Hong Kong, 0}, {Danemark,1}, {Irlande, 1}, {Royaume-Uni,1}, {Grece,1}, {Portugal, 
1}, {Finlande,1}, {Suede,1}, {Estonie,1}, {Pays-Bas, 2}, {Espagne, 2}, {Lettonie, 2}, 
{Lituanie, 2}, {Bulgarie, 2}, {Roumanie,2}, {Italie ,3}, {Luxembourg, 3}, {Slovenie, 3}, 
{Belgique,4}, {Hongrie, 4}, {Pologne,4}, {Republique tcheque,4}, {Slovaquie, 4}, 
{Suisse,4}, {France, 5 }, {Russie, 5}, {Autriche,6}, {Allemagne, 8}} 

2 - Tableaux unidimensionnels 

La presentation sous forme de serie est utile pour certains calculs, mais on utilise 
bien plus frequemment les tableaux pour presenter les caracteristiques des unites 
d’une population statistique. 

Le tableau est un outil statistique plus rebarbatif que le graphique. Neanmoins, pour 
des etudes precises, le tableau est souvent necessaire et meme parfois plus utile 
que le graphique. 

En outre, une remarque simple s’impose ici : si Ton dispose d’un tableau, on peut 
faire un graphique. Inversement, si Ton dispose seulement d’un graphique, on ne 
peut pas revenir au tableau initial (ou tres rarement). Le graphique est ainsi tres 
utilise par ceux qui veulent conserver le monopole d’une base de donnees tout en 
«revelant» publiquement son contenu (generalement pour en tirer un profit 
commercial ou de notoriete). 

A - Tableaux avec chiffres bruts 

Le tableau 1 est un tableau de chiffres bruts qui contient plusieurs series de chiffres 
caracterisant une population de 35 unites statistiques. C’est un tableau exhaustif (il 
revele integralement la base de donnees). 

Le tableau ci-apres, en revanche, est un tableau qui presente les 35 unites 
statistiques du tableau 1 sous forme d’un regroupement par classes. Les chiffres 
sont cependant « bruts » car aucun calcul de pourcentages et/ou de cumuls n’a ete 
effectue sur les 35 unites statistiques. 

Distribution des 35 pays par classes de superficie 
Chiffres bruts 


Superficie (km2) 

Effectifs 

[0 -50 0001 

12 

150 000 - 100 0001 

7 

1100 000 - 600 0001 

12 

1600 000 - 18 000 0001 

4 


Cette derniere presentation s’avere souvent peu commode (ou trop commode, c’est 
selon) et Ton prefere de ce fait la presentation sous forme de pourcentages et/ou de 
cumuls. 
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B - Tableaux avec pourcentages 


Partant du tableau des superficies regroupees, ajoutons une colonne dans laquelle 
les chiffres bruts sont presentees en pourcentages comme ci-dessous : 

Distribution des 35 pays par classes de superficie 
Pourcentages 



Superficie (Ikm 2 ) 

Effectifs 

Pourcentages 




[0 -50 0001 

12 

34,3 


(12/35)*100 


150 000 - 100 0001 

7 

20.0 


(7/35)*100 


1100 000 - 600 0001 

12 

34.3 


( 12/ 35 ) * 10 0 
(4/35)*100 

1600 000 - 18 000 0001 

4 

11.4 . 


Total 

35 

100 


f 


Effectif total 


C - Tableaux avec cumuls 

On peut aussi ajouter des colonnes avec les cumuls. Une colonne ou les chiffres 
bruts sont cumules et une autre ou ce sont les pourcentages qui sont cumules. 

1) Cumuls des donnees brutes 

Distribution des 35 pays par classes de superficie 
Chiffres bruts et cumuls 


Superficie (km2) 

Effectifs 

Effectifs 

cumules 

[0 -50 0001 

12 

12 

150 000 - 100 0001 

7 

19 

1100 000 - 600 0001 

12 

31 

1600 000 - 13 000 0001 

4 

35 

Total 

35 
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2) Cumuls des pourcentages 


Distribution des 35 pays par classes de superficie 
Chiffres bruts et cumules, pourcentages et pourcentages cumules 


Superficie (km2) 

Effectifs 

Effectifs 

cumules 

Pourcentages 

Pourcentages 

cumules 

[0 -50 0001 

12 

12 

34.3 

34.3 

150 000 - 100 0001 

7 

19 

20.0 

54 ; 3 

1100 000 - 600 0001 

12 

31 

34,3 

88,6 

1600 000 - 18 000 0001 

4 

35 

11,4 

100 

Total 

35 


100 



3 - Tableaux avec statistiques resumees 

Parfois, on prefere resumer une serie de chiffres par son total, par sa moyenne, par 
ses valeurs extremes, ou par differentes autres statistiques que nous etudierons 
dans le chapitre 3 . Le tableau ci-apres indique les moyennes simples (voir le 
chapitre 5 pour une definition plus precise de la moyenne simple) de certaines des 
variables du tableau 1 , ainsi que les valeurs minimales et maximales pour les series 
correspondantes. 


Tableau de statistiques resumees pour certaines des variables du tableau 1 



Superficie 

(km2) 

Nombre 

de frontieres 
terrestres 

avec 

dautres pays 
de TUE a 27 

Age 
median 
(estimation 
de juiiiet 
2007) 

indice de 
fecondite 

(estimation 
de juiilel 
2007) 

Moyenne 

simple 


2,20 

38.S0 

1,52 

Valeur minimale 

310 (Matte) 

0,00 

24,8 (Inde) 

0 r 98 (HK) 

Valewr maximal? 

17 075 200 
(Huskies 

s 

(AflemagneJ 

43,5 

EJapan) 

2.31 (Inde) 


Note : La moyenne simple des superficies n’est pas reportee car la dispersion est trap grande pour 
que la moyenne ait un sens. 
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4 -Tableaux croises a deux dimensions 


A - Definition et exemple 
1) Definition 

Les tableaux croises sont appeles ainsi car ils « croisent » deux distributions au 
sein d’un meme tableau. Les possibilites de croisement sont multiples. En fait, 
comme I’illustre le tableau synoptique ci-apres, il y a 16 possibilites. 


Differentes possibilites de croisement de 2 distributions 


1 er e rite re 

Valeurs 

Modsliies 

2eme critere^^ 

Simples 

RegrOup^eS 

Simples 

Regroupees 

Valeurs 

Simples 

1 

2 

3 

4 

Regroupees 

S 

6 

7 

3 

Moda files 

Simples 

9 

ID 

11 

12 

Regroupees 

13 

u 

15 

16 


2) Exemple 

a) Effectifs 

Dans le tableau croise ci-apres nous allons illustrer le cas numero 6 (croisement de 
deux variables regroupees par categories de valeurs). Les variables « Age median » 
et « Indice de fecondite » du tableau 1 ont en effet ete regroupees par categories de 
valeurs puis croisees dans le tableau. On a choisi de mettre les categories d’ages 
medians en lignes et les categories d’indices de fecondite en colonne, mais I’inverse 
aurait egalement ete possible sans que cela ne change la signification du tableau. 

Tableau croise « indice de fecondite/age median » - Effectifs 


Les ages medians ont ete regroupesen 3 categories 


Les indices de 
fecondite 
ont ete regroupes 
en 3 categories 




120-30 ans[ 

[3040 ans[ 

[40 - 50 a ns] 


[0 -1.4 enfants/femmel 

0 

9 

3 


[1 A-2 enfarttsfliemnnef 

0 

10 

6 


(2 -3 entants/femme] 

1 

1 

0 


r 
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Pour construire ce tableau a partir des donnees du tableau 1, on procede ainsi : 

1) Identification des valeurs minimales et maximales des deux series. On voit 
ainsi que I’age median varie de 24,8 ans (Inde) a 43,5 ans (Japon) et que I’indice de 
fecondite varie de 0,98 enfants par femme (Hong Kong) a 2,81 enfants par femme 
(Inde). 

2) Classement des valeurs d’une des deux series. Choisissons par exemple la 
serie des indices de fecondite et classons-la par ordre croissant. 


Indies de 

Age 

fecondite 

median 

{en nombre 

(estimation 

denfants par 

de juillet 

femme] 

2007) 

0,93 

41,2 

1,12: 

35,5 

1,21 

33,6 

1,22 

39,5 

1,23 

43,5 

1,26 

37,3 

1,26 

41 

1,28 

39,6 

1,29 

40,3 

1,29 

42,5 

1,33 

36,1 

1,33 

33,9 

1,35 

41,2 

1,37 

41,3 

1,38 

36,9 

1,39 

38,2 

1,39 

40,9 

1,4 

43 

141 | 

39,4 

1,44 

40,4 

1,48 

38,8 

1,51 

39 

1,64 

41,1 

1.66 

39,6 

1,66 

39,7 

1,66 

41 

1,73 

41,6 

1.74 

40,1 

1,75 

33,2 

1,78 

38,9 

1:3 

35,1 

1,86 

34,3 

1,93 

39 

2,09 

36,6 

2,81 

24,3 


3) Formation des categories (ou classes) de valeurs. II s’agit d un choix arbitraire. 
Pour simplifier, nous allons former les categories suivantes, d’egales amplitudes : 

• Age median (3 categories): [20-30 ans [; [30-40 ans [ ;[40-50] 

• Indice de fecondite (3 categories): [0-1,4 enfants/femme [; [1,4-2 

enfants/femme [; [2-3 enfants/femme]. 
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On forme les 3 groupes de fecondite, en utilisant par exemple des couleurs 
differentes pour chaque groupe. Ensuite, il suffit de compter pour chaque groupe, 
combien de pays ont un age median compris dans les trois categories d’age median 
que nous avons defini : [20-30 ans [; [30-40 ans [; [40-50] 

On obtient alors le tableau croise « indice de fecondite/aqe median » . Notons bien 
que ce tableau croise contient I’effectif des 35 pays (si on fait la somme des 9 
chiffres contenus dans le tableau, on trouve I’effectif total de la population, soit 35). II 
s’agit done d’un tableau de donnees brutes puisque les unites statistiques ne sont 
pas presentees sous forme de cumuls et/ou de pourcentages. 

b) Pourcentages 

Ce tableau peut etre mis sous forme de pourcentages en divisant chacun des 9 
chiffres par 35 et en multipliant par 100. On obtient alors une distribution croisee des 
35 pays en fonction de I’age median et de I’indice de fecondite, mais contrairement 
au cas precedent, cette distribution croisee est exprimee en pourcentages 

Tableau croise « indice de fecondite/age median » - Pourcentages 



[20-30 ansf 

[3040 ans[ 

[40 - 50 ans] 

[0 - 1.4 enfants/femmef 

0 

25,71 

22,86 

[1.4-2 enfants/femmef 

0 

28.57 

17,14 

[2 -3 enfant s/femme] 

2 : 86 

2,86 

0.0 


On peut facilement verifier qu’il s’agit d’un tableau en pourcentages en additionnant 
les 9 chiffres pour obtenir 100 (en tenant compte des arrondis). 


B - Distributions marginales 
1) Definition 

Lorsqu’on ajoute au tableau croise une colonne pour la somme des valeurs en ligne 
et une ligne pour la somme des valeurs en colonnes, on appelle cette colonne et 
cette ligne les distributions marginales. 
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2) Exemple 

a) Effectifs 

Reprenons le tableau croise « indice de fecondite/age median », mais ajoutons une 
ligne et une colonne. 

• Chaque chiffre de la derniere ligne ajoutee (en caractere gras) represente le 
total des effectifs de la colonne correspondante. C’est la distribution 
marginale en lignes ou distribution de la population des 35 pays sur 3 
categories d’age median. En effet 1+20+14 = 35. 

• Chaque chiffre de la derniere colonne ajoutee represente le total des effectifs 
de la ligne correspondante. C’est la distribution marginale en colonnes ou 
distribution de la population des 35 pays sur 3 categories d’indices de 
fecondite. En effet 17 +16 +2 = 35. 

Les deux distributions marginales des effectifs 



[20-30 ans| 

[30-40 ans| 

[40-SO ana) 


[0-1.4 enfents/femmel 

0 

9 

8 

17 

[1.4 -2 enfant s/femmel 

0 

10 

S 

16 

[2 -3 enfanis/femme] 

1 

1 

0 

2 


1 

20 

14 



Distribution marginale 
en colonne 
(distribution de la 
population des 35 pays 
sur 3 categories 
d'indicesde fecondite) 


Distribution marginale en ligne 
(distribution de la population des 35 pays sur 
3 categories d'age median) 
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b) Pourcentages 

La derniere ligne et la derniere colonne du tableau precedent peuvent s’exprimer en 
pourcentage de la fagon suivante : 



C - Distributions conditionnelles 
1) Colonnes 

a) Effectifs 

Reprenons le tableau croise « indice de fecondite/age median », mais concentrons- 
nous sur les differentes colonnes. Considerons par exemple la colonne des ages 
medians compris dans I’intervalle [30-40[: 

Exemple de distribution conditionnelle en colonne (effectifs) 



[20-30 ansi 

[3040 angf 


[40 ■ 50 ans] 

[0 - 1,4 enfants/femmef 

0 

9 


8 

f 1.4 - 2 enfants/femmef 

0 

10 


6 

[2 -3 enfants/femmel 

1 

1 


0 

Total 

,-1-! 

a 30 - 

14 


Distribution par categories d'age de fee on dire 
des 20 pays dont Cage median est dans I'intervalle [3040[ 
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La distribution par categories d’age de fecondite des 20 pays dont I’age median est 
dans I’intervalle [30-40 ans [est appelee distribution conditionnelle en colonne. 
L’expression conditionnelle provient du fait que les 20 pays concernes sont une 
sous-population de la population totale et que cette sous-population correspond a 
tous les pays qui repondent a la condition « etre dans I’intervalle [30-40[ des ages 
medians ». 

On voit qu’il y a 3 distributions conditionnelles possibles puisqu’il y a 3 categories 
d’ages medians. 

b) Pourcentages 

L’effectif de la distribution conditionnelle precedente est de 20. II est distribue selon 
les 3 categories d’indices de fecondite. Si Ton fait abstraction du reste du tableau, on 
peut diviser chacun des chiffres de cette colonne par 20 et le multiplier par 100 de 
fagon a exprimer la distribution conditionnelle en pourcentages. On aura alors : 


Age median [30-40[ 

(9/20) x 100 = 45% 
(10/20) x 100 = 50% 
[1/20} x 100 = 5% 

Total (20/20) x 100 = 100 % 


Si maintenant on effectue la meme operation pour les trois colonnes on obtient le 
tableau des tableaux des distributions conditionnelles en colonnes en 
pourcentages. 

Les 3 distributions conditionnelles en colonnes (pourcentages) 



[20-30 ansf 

[3040 ans[ 

[40 - 50 ans) 

[Q - 1,4 enfants/femmef 

0 

45 

57,1 

[1,4 - 2 enfants/femmef 

0 

50 

42.9 

[2 -3 enfants/femme] 

100 

5 

0 

_ Total _ 

_ m _ 

_ m _ 

_ m _ 


Dans chaque colonne, I’effectif initial a ete divise par le chiffre correspondant de la 
sous population de pays associes a la categorie d’age median correspondante. 

2) Lignes 

a) Effectifs 

De la meme fagon qu’il y a des distributions conditionnelles en colonnes, il y a aussi 
des distributions conditionnelles en ligne. Cette fois, on isole 3 sous populations qui 
correspondent aux categories d’indices de fecondite. A titre d’exemple, dans le 
tableau ci-apres, la categorie d’indice de fecondite [1,4-2 enfants/femme [a ete 
isolee, ce qui correspond a une sous population de pays egale a 16. La distribution 
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de ces pays par categories d’ages de fecondite est ensuite donnee par la ligne 
encadree. 

Naturellement, puisqu’il y a 3 categories d’indices de fecondite, il y a 3 sous 
populations et trois distributions conditionnelles. 

Exemple de distribution conditionnelle en ligne (effectifs) 



[20-30 ansf 

[3040 ans[ 

[40 - 50 aosl 


[0 - 1.4 enfants/femmef 

0 

0 

3 

17 

If 1,4 - 2 enfants/femmef 

0 

10 

6 

16 

[2 -3 enfant stfe mime] 

1 

1 

0 

2 


Distribution par categories d'age median ties IS pays dont I'indice de 
fecondite est dans la tranche [ 1,4 - 2 enfants/femme[ 

b) Pourcentages 


Suivant le meme principe que pour les distributions conditionnelles en colonne, on 
peut transformer les distributions d’effectifs en distribution de pourcentages en 
divisant les chiffres de chaque ligne par le total de la ligne. On obtient alors le 
tableau suivant des distributions conditionnelles en colonnes en pourcentages. 

Les 3 distributions conditionnelles en ligne (pourcentages) 



[20-30 ans[ 

[3040 ans[ 

[40 - 50 ansi 


[0 - 1.4 enfants/femmef 

0 

52,9 

47,1 

100 

[1.4 -2 enfants/femmef 

0 

62,5 

37,5 

100 

[2 -3 enfant s/femme] 

50 

50 

0 

100 
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5 - Tableaux croises ayant plus de 2 dimensions 

Pour construire des tableaux a plus de deux dimensions, il est necessaire 
« d’imbriquer» les dimensions supplementaires les unes dans les autres. Plus on 
ajoute de dimensions, et plus la lecture du tableau devient difficile. Les deux 
exemples ci-apres illustrent ce point. 

A - Un exemple de tableau a 3 dimensions : les medailles distributes a Pekin 

Le tableau ci-apres presente des statistiques sur le nombre de medailles distributes 
aux JO de Pekin suivant trois dimensions : 

• Pays 

• Genre de la competition (hommes, femmes, mixte) 

• Type de medaille (or, argent, bronze). 

La troisieme dimension, « type de medaille » (or, argent, bronze) a ete imbriquee 
dans la deuxieme dimension, « genre de la competition » (hommes, femmes, mixte). 


Pays 

Hommes 

Or Ar Br Tot 

Femmes Mixte 

Or Ar Br Tot Or Ar Br Tot Or 

Total 

Ar Br 

Tot 

Ciassement 

par total 

CHN - Chine 

2^ 

10 

a 

42 

27 

11 

19 

57 



1 

1 

51 

21 

28 

100 

2 

USA - Etats-Unis 

20 

13 

20 

53 

15 

23 

15 

53 

1 

2 

1 

4 

3E 

38 

3E 

110 

1 

RUS - Feel, de Russie 

12 

8 

20 

40 

11 

13 

8 
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23 

21 

28 

72 

3 

GBR - Grande-Bretagne 

11 

3 

7 

2fi 

7 

5 

E 

18 

1 


2 

3 

19 

13 

15 

47 

4 

GER - Allemagne 

7 

7 

6 

20 

5 

2 

7 

15 

3 

1 

2 

E 

IE 

10 

15 

41 

6 

AUS - Australia 

6 

6 

9 

21 

fil 

7 

8 

23 


2 


2 

14 

15 

17 

46 

5 

KQR - Coree 

A 

6 

4 

13 

4 

4 

4 

12 

1 



1 

13 

10 

8 

31 

8 

JPN - Japon 

4 

4 

5 

13 

[¥] 

2 

5 

12 





9 

r~6~i 

10 

25 

11 

ITA- Italie 

4 

7 

6 

17 

4 

3 

4 

11 





8 

10 

10 

28 

9 

FRA - France 

6 

14 

12 

32 

1 

2 

4 

7 



1 

1 

7 

IE 

17 

40 

7 

UKR - Ukraine 

4 

3 

8 

15 

3 

2 

7 

12 





7 

5 

15 

27 

10 

NED - Pays-B as 

1 


2 

3 

5 

4 

2 

11 

1 

1 


2 

7 

5 

4 

IE 

IE 

JAM - Jamaique 

3 



3 

3 

3 

2 

8 





E 

3 

2 

11 

20 

ESP - Espagne 

4 

6 

2, 

12 


3 

1 

4 

1 

1 


2 

5 

10 

3 

IS 

14 

KEN - Kenya 

3 

2 

4 

9 

2 

3 


5 





5 

5 

4 

14 

18 

BLR - Belarus 

3 

|i1 

5 

11 

1 

2 

5 

a 





4 

5 

10 

19 

13 

RQU - Roumanie 



1 

1 

4 

1 

2 

7 





4 

1 

3 

a 

25 

ETH - Ethiopie 

2 

i 

1 

pn 

2 


1 

ri~1 





4 

1 

2 

7 

27 

•CAN - Canada 

1 

5 

3 

9 

1 

3 

3 

7 

1 

1 


2 

3 

9 

S 

18 

14 

POL - Pologne 

3 

4 


7 


2 

1 

3 





3 

S 

1 

10 

21 

HUN - Hongrie 

2 

4 

1 

7 

1 

1 

1 

3 





3 

5 

2 

10 

21 

NOR - Norvege 

2 

3 


5 

1 

2 

1 

4 



1 

1 

3 

5 

2 

10 

21 

BRA- Bresil 

1 

3 

5 

9 

2 

1 

3 

E 





3 

4 

8 

15 

17 

CZE - Rep.tcheque 

1 

pM 


3 

2 

1 


3 





3 

3 

0 

S 

30 

SVK- Slovaquie 

2 

1 

1 

4 

1 

1 


2 





3 

2 

1 

[ 7 ] 

30 

NZL - Nveile-Zelande 

1 

1 

5 

PtH 

2 



2 





3 

1 

5 

9 

24 

GEO - Georgie 

3 


2 

5 



1 

1 





3 

0 

3 

E 

30 

CUB-Cuba 

2 

5 

8 

15 


E 

3 

9 





2 

11 

11 

24 

12 

KAZ - Kazakstan 

2 

2 

5 

9 


2 

2 

4 





2 

4 

7 

13 

19 

DEN - Danemark 

1 

2 

1 

4 



1 

1 

1 


1 

2 

2 

2 

3 

7 

27 

MGL - Mongolia 

2 

1 


3 


1 


1 





2 

2 

0 

4 

44 

THA- Thailande 

1 

1 


2 

1 

1 


2 





2 

2 

0 

4 

44 

PRK - RPD Coree 



1 

1 

2 

1 

2 

5 





2 

1 

3 

E 

30 

ARG - Argentine 

2 


1 

3 



2 

2 



1 

1 

2 

0 

4 

E 

30 

SUI-Suisse 

2 


3 

r~s~i 



1 

1 





2 

: 

4 

E 

30 

MEX- Mexique 

1 



i 

1 


1 

2 





2 

0 

1 

3 

51 

TUR - Turquie 

1 


3 

4 


4 


4 





1 

4 

3 

a 

25 

ZIM - Zimbabwe 





1 

3 


4 





1 

3 

0 

4 

44 
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(Tableau des medailles JO de Pekin - Suite) 


n Hommes Femmes Miwte Total Classement 

Fays 

Or Ar Br Tot Or Ar Br Tot Or Ar Er Tot Or Ar Br Tot partotal 


AZE - Azerbaijan 

1 

2 

3 

6 



1 

1 





1 

2 

4 

7 

27 

UZB - Quzbekistan 

1 

2 

2 

5 



1 

1 





1 

2 

3 

6 

30 

SLO - Sievenie 

1 

1 

1 

3 


1 

1 

2 





1 

2 

2 

5 

38 

BUL - Bulgarie 



3 

3 

1 

1 


2 





1 

1 

3 

5 

38 

INA- Indonesie 

1 


2 

3 



1 

1 


1 


1 

1 

1 

3 

5 

38 

FI N - Finlande 



2 

2 

1 

1 


2 





1 

1 

2 

4 

44 

LAT- Lettonie 

1 

1 

1 

3 









1 

1 

1 

3 

51 

BEL - Belgique 





1 

1 







1 

1 

0 

2 1 

57 

DOM - Rep.dominicaine 

1 

1 


2 









1 

1 

0 

2 

57 

EST- Estonie 

1 

1 


2 









1 

1 

0 

2 

57 

FOR - Portugal 

1 



1 


1 


i 





1 

1 

a 

2 

57 

IND - Inde 

1 


2 

3 









1 

O 

2 

3 

F 51 

IR1 - Iran 

1 


1 

2 









1 

0 

l 

2 

57 

BRN - Bahreon 

1 



1 









1 

0 

0 

1 

69 

CMR - Caneroun 





1 



i 





1 

0 

0 

1 

69 

PAN - Fanama 

I 



1 









1 

0 

Pol 

1 

69 

TUN - Tunisie 

1 



1 








1 

O 

0 

1 

69 

SWE - Suede 


2 

1 

3 


1 


i 


1 


1 

0 

4 

1 

5 

38 

CRO - Croatie 


1 


1 


1 

3 

4 





0 

2 

3 

5 

38 

LTU - Lituanie 


1 

3 

4 


1 


1 





: 

2 

3 

5 

38 

GRE - Greze 


2 


2 



2 

2 





: 

2 

2 

4 

44 

TRI - Trinite/Tobago 


2 


2 









o 

2 

0 

2 

" 57 

NGR - Nigeria 


1 

1 

2 



2 

2 





0 

1 

3 

4 

44 

AUT - Autriche 


1 


1 



2 

2 





0 

1 

2 

3 

51 

1RL - Irlande 


1 

2 

3 









0 

1 

2 

3 

51 

SRB - .Serbia 


1 

2 

3 









0 

1 

2 

3 

51 

ALG - Aligerie 


1 


1 



1 

1 





0 

1 

1 

2 

57 

BAH - Bahamas 


1 

1 

2 









>2 

1 

1 

2 

57 

COL- Colombia 


1 


1 



1 

1 





: 

1 

1 

2 

57 

KGZ - Kirghizistan 


1 

1 

2 









: 

1 

1 

2 

57 

MAR - Maroc 


1 


1 



1 

1 





0 

1 

1 

2 

57 

TJK- Tadjikistan 


1 

1 

2 









0 

1 

1 

2 

57 

CHI! - Chili 


1 


1 









0 

1 

0 

1 

69 

ECU - Equateur 


1 


1 









0 

1 

0 

1 

69 

ISL- Islande 


1 


1 









o 

1 

0 

1 

69 

MAS - Malaisie 


1 


1 









0 

1 

Pol 

1 

69 

RSA - Afrique du .Sud 


1 


1 









: 

1 

0 

1 

69 

SI N - Singapour 






1 


1 





a 

1 

0 

1 

69 

SUD - Soudan 


1 


1 









0 

1 

0 

1 

69 

VIE - Vietnam 


1 


1 









0 

1 

: 

1 

69 

ARM - Armenie 



6 

6 









0 

O 

6 

6 

30 

TFE - Chinese Taipei 



2 

2 



2 

2 





0 

O 

4 

4 

44 

AFG - Afganistan 



1 

1 









0 

O 

1 

1 

69 

EG¥ - Egypte 



1 

1 









o 

0 

1 

1 

69 

ISR- Israel 



1 

1 









0 

O 

1 

1 

69 

MDA - Rep. de Moldavia 



1 

1 









LI] 

0 

1 

1 

69 

MRI - Maurice 



1 

1 









0 

O 

1 

1 

69 

TOG - Togo 



1 

1 









>2 

0 

1 

1 

69 

VEN - Venezuela 







1 

1 





0 

0 

ml] 

1 

69 

r esults.beiiina2008.cn/WRM/FRE/INF/GL/95A/GL0000000.shtml 
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B - Un exemple de tableau a 4 dimensions : le naufrage du TITANIC 

Le tableau ci-apres presente la repartition de 2201 personnes recensees a bord du 
Titanic lors de son naufrage dans la nuit du 14 au 15 avril 1912, suivant 
4 dimensions : sexe, age (adulte/enfant), classe (1, 2 ou 3 ou equipage), etat vital 
apres le naufrage (survivant/mort). 


Statistiques sur les 2201 naufrages du TITANIC (*) 


Genre 

Age 

Etat vital apres le naufrage 

Class# 

lere 

2eme 

Seme 

Equipage 

Mast ul in 

Adulte 

Deces 

HE 

154 

3E7 

670 

Femlnin 



a 

13 

8S 

3 








Masculin 

Enfant 

Deces 

0 

0 

35 

0 

F^minin 



0 

0 

17 

0 








MascuHn 

Adulte 

Survie 

57 

14 

75 

192 

Feminin 



140 

£0 

76 

20 








Masculin 

Enfant 

Survie 

5 

11 

13 

0 

Femimn 



1 

13 

14 

0 


(*) Le nombre total de personnes presentes a bord du TITANIC au moment du naufrage, pas plus 
que le nombre exact de personnes decedees, ne sont connus avec certitude. En outre, le sexe des 
personnes a parfois ete etabli uniquement a partir du prenom. 


Source du tableau: Michael FRIENDLY, Visualizing Categorical Data: Data, Stories, and Pictures, 
http://www.math.vorku.ca/SCS/vcd/vcdstory.pdf . Des chiffres legerement differents sont presentes 
dans I’article que Wikipedia consacre au naufrage : http://fr.wikipedia.org/wiki/Naufraqe du Titanic 

6 - Resume 

Avant meme d’etre presentees sous forme d’un tableau, les donnees sont traitees 
et parfois presentees sous forme de series brutes ou de vecteurs. Les series 
brutes peuvent etre classes (par ordre croissant ou decroissant) ou non classees, 
identifies ou non identifies. 

Les tableaux peuvent etre unidimensionnels, bidimensionnels et meme 
multidimensionnels. Plus le nombre de dimensions augmente et plus la lecture est 
difficile. 

Les tableaux peuvent etre presentes sous forme de donnees brutes non groupees ou 
groupees, ou sous forme de pourcentages et/ou de cumuls. 

II existe aussi des tableaux qui proposent des statistiques resumees plutot que de 
recenser les unites statistiques elles-memes. 

Les tableaux a deux dimensions, appeles tableaux croises, permettent d’etudier les 

distributions marginales et les distributions conditionnelles. 
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Les distributions marginales d’un tableau croise a deux dimensions sont au 
nombre de deux et s’obtiennent en ajoutant au tableau croise une colonne pour la 
somme des valeurs en ligne et une ligne pour la somme des valeurs en colonnes. 

Les distributions conditionnelles d’un tableau croise a deux dimensions sont au 
nombre de deux et s’obtiennent en isolant une valeur (modalite) ou une classe de 
valeurs (modalites) de I’une des deux dimensions. Le nombre de distributions 
conditionnelles d’un tableau croise a deux dimensions est done egal a la somme des 
valeurs (modalites) ou des classes de valeurs (modalites) des deux dimensions. 

Pour construire des tableaux a plus de deux dimensions, il est necessaire 
« d’imbriquer» les dimensions supplementaires dans les deux dimensions du plan, 
ce qui rend rapidement la lecture difficile. 
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Chapitre 3 : Statistiques permettant de resumer une serie 


0 - Introduction 

1 - Les statistiques de tendance centrale 

A- Le mode 

1) Definition 

2) Remarques a propos du mode 

a) Une serie oeut avoir plusieurs [nodes 

b) Le mode rVexiste pas forcement 

c) Le mode njest nas forcement la vajeur la plus elevee 

d) Variables et caracteres peuvent avoir un mode 

e) Mettre la serie sous forme de distribution pour reoerer le mode 
B - La movenne arithmetique 

1) La movenne arithmetique simple 

2) La movenne arithmetique ponderee 

3) Calcul de la movenne sur des donnees cateqorielles 
C - La mediane 

1) Oriqine du mot, sens qeometrique 

2) Sens du mot en statistique descriptive 

3) Methode de calcul 

a) n est pair 

b) n est impair 

2 - Les statistiques de dispersion 

A - Minimum, maximum, intervalle de variation et rapport de variation 

1) Minimum et maximum d’une serie 

2) Intervalle de variation ou etendue 

3) Rapport de variation 
B - Intervalle interquartile 

C - Variance, ecart-type et coefficient de variation 

1) La variance 

a) Definition 

b) Exemole 

c) Utijite de la variance 

2 ) L'ecart-type 

a) Definition 
ib) Methode de calcul 

c) Utijite de l’ecart-type 

3) Le coefficient de variation 

3 - Resume 

Annexe : Methode alternative pour le calcul des quartiles 
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0 - Introduction 


Nous avons deja vu dans le chapitre precedent, un exemple de tableau contenant 
des statistiques resumees, tableau qui est reproduit ci-dessous pour memoire: 

Tableau de statistiques resumees pour certaines des variables du tableau 1 



Syperficie 

(km?) 

Nombre 

de Iron lie res 

ter res Ires 

avec 

d'autres pays 
de TUI a 27 

Age 
median 
(estimation 
" dejuitlet 
2007) 

indiee de 
fecondite 
(en 

nombre 

d'enfants 

par 

Moyenne 

pimple 


2,20 

300 

1,52 

Valeur minimal? 

316 (Malt?) 

0.00 

24,8 (Inde) 

0,98 (KK) 

Valeur maximal? 

17 076 200 
(Ru&siel 

6 

(Allemagne} 

43,5 

(Jajjon) 

2,31 (Inde) 


Ce tableau ne contient que trois statistiques resumant les differentes series du 
tableau 1 : II s’agit de la moyenne simple, ainsi que des valeurs minimales et 
maximales de chaque serie. Nous allons maintenant etudier systematiquement les 
principales autres statistiques permettant de resumer une serie. A chaque fois, on 
insistera sur la methode de calcul (plutot que sur la formule) et on s’appuiera sur des 
exemples extraits du tableau 1 . 

II est habituel de distinguer deux types de statistiques resumees, quitte ensuite a 
les reunir dans des statistiques resumees plus elaborees : 

• Les statistiques qui resument la tendance « centrale » d’une serie ou d’une 
distribution : 

o mode, 
o moyenne 
o mediane. 

• Les statistiques qui resument la dispersion d’une serie : 

o intervalle de variation (aussi appelee « etendue ») 
o intervalle interquartile. 

Certaines de ces statistiques, tout en resumant la dispersion de la serie, 
tiennent aussi compte de sa valeur centrale. C’est le cas de : 

o I’ecart-type, 

o de la variance 

o du coefficient de variation 3 . 


3 II existe aussi des statistiques qui resument la «forme » d’une distribution, mais celles-ci ne sont 
plus guere utilisees aujourd’hui dans la mesure ou il est plus facile d’observer directement le 
graphique d’une distribution pour en apprecier la forme que de calculer des coefficients dont 
I’interpretation est fastidieuse. 
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Line derniere remarque : bien qu’il soit possible d’effectuer des calculs de 
statistiques resumees (moyenne, mediane, mode, etc.) sur les donnees groupees en 
categories, c’est fortement deconseille de le faire quand on dispose des donnees 
brutes ou regroupees par valeurs ou modalites 4 . C’est une question de bon sens. 
Si I’on effectue les calculs sur des donnees regroupees par categories, on obtient 
des resultats approximatifs et meme carrement faux quand on les compare aux 
calculs effectues sur les donnees brutes (sans parler des formules abstruses et 
abscondes qu’il faut employer pour effectuer les calculs de moyennes, medianes, 
quartiles ou variance sur des donnees categorielles). Les methodes de calcul sur les 
donnees groupees plutot que sur les donnees brutes n’ont plus leur place dans la 
statistique moderne alors meme que I’informatique se charge des calculs pour un 
nombre arbitrairement grand de valeurs. 

I - Les statistiques de tendance centrale 
A - Le mode 

1) definition 

Le mode d'une serie est la valeur ou la modalite qui revient le plus frequemment 
dans la serie ou la distribution. 

Exemple : Soit la serie {8,4,4,3,4,3,8,2,5} 

La valeur la plus frequente de cette serie est 4. Le mode est done egal a 4. L'effectif 
associe a ce mode est 3. 

2) Remarques a propos du mode 

a ) Une serie peut avoir plusieurs modes 

Soit la serie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, les "2" sont mis 
en gras et les "3" sont soulignes, car ce sont les valeurs qui reviennent le plus 
souvent: 5 fois chacune. Cette serie a 2 modes, elle est bimodale. Ses deux modes 
sont: 2 et 3. L'effectif associe a chacun de ces modes est: 5. Bien entendu, on peut 
avoir des series avec 3, 4, 5, etc. modes. Ce sont alors des series multimodales. 

b) Le mode n’existe pas forcemeat 

C'est le cas lorsque toutes les valeurs ont le meme effectif comme dans I'exemple 
suivant : {8,6,5,7,3,1}. Dans ce cas, on peut aussi dire que toutes les valeurs sont 
modales. 

c) Le mode n’est pas la valeur la plus elevee 

II ne faut pas confondre le mode, qui est la valeur la plus frequente, avec la valeur la 
plus elevee de la serie. Dans la serie {8, 6, 5, 7, 3, 1}, il n'y a pas de mode, mais la 


4 Ce qui est normalement le cas, sauf situation particuliere, lorsque les donnees de depart ont ete 
perdues - cas d’ecole autrefois utilise pour compliquer malicieusement les exercices d’examen. 
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valeur la plus elevee est 8. II peut arriver que le mode soit aussi la valeur la plus 
elevee, mais ce n’est alors qu’une coincidence. 

d) Variables et caracteres peuvent avoir un mode 


La notion de mode existe aussi bien dans le cas d’une serie qui se rapporte a une 
variable que dans le cas d’une serie qui se rapporte a un caractere. 

e) Mettre la serie sous forme d’une distribution pour reperer le mode 


Pour detecter le mode, il est souvent plus facile de distribuer les elements de la serie 
par valeurs (ou par modalites). Soit la serie « nombre de frontieres terrestres avec 
d’autres pays de I’UE a 27 » extraite du tableau 1 : 


SI ={8,4, 5, 3, 3, 2,1, 1, 1, 1,2, 1 ,6, 1, 1,0, 1,4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0, 
5, 0,0} 


Nous avons vu dans le chapitre 1 que cette serie peut etre mise sous forme d’une 
distribution par valeurs de la fagon suivante : 


Distribution des pays du tableau 1 

selon leur nombre de frontieres terrestres avec les pays de I’UE a 27 


Nombre 

de frontieres terrestres 

avec 

day tres pays 
de rUE a 27 ^ 

Effectifs 


3 

Li/ 

8 

r 

6 

3 

3 

4 

6 

5 

2 

6 

1 

7 

0 

3 

1 
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^ 0 eM sont les deux valeurs 
moriaies de la distribution (ou 
la serie corresporidarite). c'esl- 
a-dire les plus frequentes. 
Cette distribution (et la serie 
correspond^ nte) est done 
bi -mo dale 


Nous voyons alors plus facilement quels sont les deux modes de la serie. 

B - La moyenne arithmetique 

Le mot moyenne a pour origine le latin "medius», mot signifiant "qui est au milieu". 
"Medius" est aussi I'origine du mot "mediane". Pourtant, en statistique, les deux mots 
conduisent a des definitions differentes. Ceci nous laisse supposer que la notion de 
milieu n'est pas toujours facile a definir. 
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1) La moyenne arithmetique simple 

La moyenne arithmetique d'une serie ou moyenne arithmetique simple se 

calcule par uneformule qui est donnee par I'expression : 


X = 


l T*. 

n m 


(i) 


Le "x" surmonte d'un trait designe classiquement la moyenne. On remarque que la 
somme va de 1 a n ou n designe le nombre d'unites statistiques de la population. 
Appliquons cette definition au calcul de la moyenne de la serie suivante = {4, 0, 1, 1, 
2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}. On a done : 

_ 1 x"’’ 4 + 0 +1 +1+2+2+2+3 + 3+4 + 2+3+4 + 5+2 +1 + 3+3+4 + 5 54 , 

x = - > x =-= — = 2, 


2) La moyenne arithmetique ponderee 


La moyenne arithmetique d'une distribution ou moyenne arithmetique 
ponderee se calcule par une formule qui est donnee par I'expression : 




( 2 ) 


La somme varie cette fois de 1 a k, avec k qui represente le nombre de valeurs de la 
serie. Dans le cas ou aucune valeur n'est repetee k=n. Sinon k<n. Remarquons que 
la somme va de 1 a k, mais que cette somme est divisee par n et non par k. 

La notation rij represente les effectifs ou frequences absolues des valeurs. 
Appliquons cette definition au calcul de la moyenne de la distribution : 

X II; 

J J 

0 1 

1 3 

2 5 

3 5 

4 4 

5 2 


1 k 

x= - Tr> x > ■ 

n i .i 


1 0 x 11 + (1 x 3i + 1 2 x 5 i + (3 * 5 i + 14 x 4 1 + i 5 x 2i 
20 


0 + 3 + 10 + 15 + 16+10 
20 


54 

20 


2,7 


Les differences entre la formule de la moyenne donnee en (1) et celle donnee en (2) 
sont importantes a noter, quoique les deux formules donnent necessairement le 
meme resultat. 
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• La premiere difference tient au fait que dans la formule (1) la somme se fait 
sur les n unites statistiques, alors que dans la formule (2) la somme se fait sur 
les k valeurs. 

• La seconde difference tient au fait que dans la formule (1), chaque element 
additionne compte pour un, c'est-a-dire que la ponderation est de 1. Dans la 
formule 2, les ponderations sont differentes. La formule (1) est en fait un cas 
particular de la formule (2). En effet si n = k et que = 1 pour j = 1 a k alors 
les deux formules sont identiques. 

En pratique, si le calcul de la moyenne doit etre fait sans machine a calculer ni 
tableur et que les donnees sont peu nombreuses (inferieures a 10), mieux vaut 
utiliser la formule (1). Sinon, la formule (2) peut etre preferee. 

La moyenne arithmetique ne peut pas etre calculee pour un caractere 

(dimension quantitative). Soit par exemple le caractere sexe, avec les deux 
modalites "F" et "H", dans une population de 10 personnes. On a la serie suivante : 
{F,H,F,F,H,H, F,F,F,H}. La modalite "Femme" est plus frequente (6 contre 4 pour la 
modalite "Homme") : c'est le mode. En revanche, on ne peut pas calculer de 
moyenne arithmetique. La meme chose est vraie si Ton met cette serie sous forme 
d'une distribution : 


Sexe 

Effectifs 

H 

4 

F 

6 


On peut calculer les frequences associees a chaque modalite. On voit alors que la 
modalite la plus frequente est "F" (0,6 contre 0,4 pour la modalite "H"). Mais la notion 
de moyenne arithmetique n'a pas de sens pour un caractere. 

3) Calcul de la moyenne sur des donnees categorielles 

Ainsi que precise dans I’introduction a cette section consacree a la moyenne, il faut a 
tout prix eviter de proceder a ce type de calcul. Nous ne le donnons ici qu’a titre 
d’information. Lorsque Ton a une distribution par classes de valeurs, la moyenne se 
calcule en prenant la formule de la moyenne ponderee et en remplagant dans cette 
formule "Xj" par "Cj", ou c, represente le centre de la classe j, c’est-a-dire la 
moyenne arithmetique des extremites de classe. A defaut d'avoir une valeur x y on 
prend "c". Ceci explique que le calcul de la moyenne donne un resultat imprecis. On 
va le voir dans les deux exemples suivants : 

Soit la serie deja utilisee precedemment: {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 

3, 3, 4, 5}. Nous savons que la moyenne arithmetique simple appliquee a cette serie 
est: 


n j. i 


(0x1) + (1x3)+ (2x5) + (3x5) + (4x4) + (5x2) 
20 


,0 + 3 + 10 + 15 + 16 + 10 _54 7 

20 " 20 " ' 
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Exemple 1 : Supposons maintenant que seule la distribution par classe de valeurs 
d'amplitudes egales nous soit donnee : 


Classes 

n i 

[0-2[ 

4 

[2- 4[ 

10 

[4- 6] 

6 




Pour calculer la moyenne, nous devons determiner les centres de classe, puis faire 
la somme des "nj x c/' et diviser par n. Autrement dit, nous devons appliquer la 
formule : 


X - 




La notation c, indique le centre de classe et ou k represente le nombre de classes. 
Comme indique precedemment, le centre de classe est egal a la moyenne des 
extremites de classe. On a done le tableau de calcul suivant: 


Classes 

n J 

Cj (moyenne des 
extremites de 
classe) 

njxcj 

[0-2 [ 

4 

1 

4 

[2-4[ 

10 

3 

30 

[4- 6] 

6 

5 

30 




64 


Et finalement: 


x = 



20 


3 

£[(4x1) + (10x3) + (6x5)] 

i=i 


4 + 30 + 30 
20 


64 

20 


3,2 


Nous avons done une marge d'erreur non negligeable par rapport a la vraie 
moyenne, a savoir 2,7. La marge d'erreur en pourcentage est donnee par: 


3 2-2 7 0 5 

' ±iL x 100 = yy x 100 = 18,5% 

La marge d'erreur depend de la definition des classes. 
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Exemple 2 : Supposons que Ton ait maintenant deux classes d'amplitudes inegales. 
Le calcul se fait de la meme fagon, mais on obtient un resultat different: 


Classes 

n i 

Cj 

tljXCj 

[0-4[ 

14 

2 

28 

[4- 6] 

6 

5 

30 




58 


La moyenne est done : 


=^I[( 14x2 M 6x5 )] = 


1 


28 + 30 _ 58 _ 

jL * y 

20 20 


On voit done que chaque fois que Ton change les classes ou que Ton modifie leur 
amplitude, on exerce un effet sur la moyenne par le jeu de la modification des 
centres de classe. II est done facile de manipuler la moyenne en choisissant les 
amplitudes de classe. C'est pourquoi il est recommande de ne calculer la 
moyenne a partir des centres de classe que lorsqu'on ne peut pas faire 
autrement, e'est-a-dire lorsque Ton ne dispose pas des donnees brutes. 

C - La mediane 

1) Origine du mot, sens geometrique 

Le mot « mediane » a pour origine le latin « medius», mot signifiant « qui est au 
milieu ». « Medius » est aussi I'origine du mot "moyenne". Pourtant, en statistique, 
les deux mots conduisent a des definitions differentes. Ceci nous laisse supposer 
que la notion de milieu n'est pas toujours facile a definir. 

Avant d'avoir une definition statistique, la mediane a d'abord une definition 
geometrique. On definit ainsi, par exemple, les medianes d'un triangle. Une mediane 
d'un triangle est une droite qui joint un sommet au milieu du cote oppose. Ilya done 
3 medianes par triangle. 


Une mediane d'un triangle est une droite qui joint un sommet au 
milieu du cote oppose. Ilya done 3 medianes par triangle. 


A 



ABC est un triangle 
quelconque 

I est le milieu de [BC] 

J est le milieu de [AC] 

Kest le milieu de [BA] 


Les 3 medianes se croisent en un point, G, appele centre de gravite. 
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2) Sens du mot en statistique descriptive 

La mediane est la valeur de la variable (et dans certains cas, la modalite du 
caractere) qui partage la population, dont les unites statistiques ont prealablement 
ete classees par ordre croissant des valeurs (de la variable consideree), en deux 
sous populations egales. 

3) Methode de calcul 

• Toujours se ramener a une serie : Si les donnees se presentent sous forme 
d'une distribution, convertir la distribution en serie. 

• Classer la serie : Une fois la serie constitute, I'ordonner en classant les 
chiffres par ordre croissant. On designera par k le rang d’une valeur dans la 
serie (voir tableau ci-apres). 

• Determiner si la serie comprend un nombre pair ou impair d’unites 
statistiques : Soit n le nombre d’unites statistiques. Deux cas peuvent alors 
se presenter: celui ou n est pair et celui ou n est impair. 

a) n est pair 

Dans ce cas la mediane est egale a la moyenne arithmetique de a(k) et de 
a (k+1) ou k est tel que n = 2k [k=n/2] et ou a(k) et a (k+1) sont les valeurs 
associees a k et a k+1 

Exemple : si Ton prend la serie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 
5}. 

On a done le tableau suivant (ou les valeurs sont classees par ordre croissant): 


Serie classes 


pe 

ir ordre croissant 

Rang 


□ 

1 


t 

2 


1 

3 


t 

4 


2 

5 


2 

6 


2 

7 


2 



2 

9 


a (k+1) - ► 3 11 -k+1 



3 

12 



3 

13 



3 

1^ 



4 

1& 



4 

IE 



4 

17 



4 

18 



s 

19 



5 

20 



Puisque n=20, n est pair. Done n= 2k [soit k=n/2 ] donne ici k = 20/2 =10 et k+1 = 
11. Les valeurs associees sont a(k) = 3 et a (k+1) = 3. Par consequent: 

Me = [a(k) +a (k+1)]/2= (3+3)/2=3 
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On peut aussi appliquer la formule proposee par le tableur EXCEL (cf. la notice 
technique sur le site de Microsoft: http://support.microsoft.com/kb/103493/fr 5 ). 

Dans ce cas, on doit calculer Me de la fagon suivante : 

Me = a (k) +[fx[a (k+1) - a (k)] ] 

Pour comprendre cette formule, il faut d’abord definir g : 

g = [(1/2)(n-1)]+1. 

Une fois que Ton a definit g, on peut en deduire k et f : 

k represente le rang de la valeur dans le classement du tableau ci-dessus et est egal 
a la partie entiere de g. 

fe st la partie decimale de g. 

a(k) est la valeur associee au rang k 

a(k+1) est la valeur associee au rang k+1. 

Si Ton applique cette formule, on voit que : 

g = [(1/2)(20-1)]+1=10,5 

Par consequent k= 10 et f = 0,5. On a done a(k) = 3 et a (k+1)=3. Des lors : 

Me = 3 + [0,5(3-3)] = 3 


5 La notice technique sur le site Internet de Microsoft ( http://support.microsoft.eom/kb/103493/fr ) 
presente la formule differemment mais aboutit au meme resultat. 
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ib) n est impair 


Dans ce cas la mediane est egale a a (k+1) ou k est defini par (n-1)/2 , soit n= 
2k+1 et ou a(k+1) est la valeur associee a k+1 

Exemple : si Ton prend la serie precedente mais que Ton enleve le 20 eme element, on 
alors la serie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1,3, 3, 4} ou n = 19 et le tableau 
suivant (oil les valeurs sont classees par ordre croissant) : 




^•ci ic L-iasscc 

pa r o rd re cro issa nt Rang 




0 

1 




1 

2 




1 

3 




1 

i 




2 

$ 




2 

t 




2 

7 




2 

a 


a(k)— 

2 


k 


ni If JL ‘‘I \ - 


m A J, 

1, , 4 


3 

10 * 

K+1 



3 

is 




3 

il¬ 




3 

ia 




3 

14 




4 

15 




4 

16 




4 

17 




4 

13 




5 

19 



lei k= (n-1)/2= 9 [2k+1 = n donne done 2k+1 = 19, puisque k=9\. Done k+1 = 10. 

Par consequent la mediane est egale a a (k+1) soit 3. 

On peut, comme dans le cas ou n est pair, appliquer la formule proposee par le 
tableur EXCEL et on obtiendra le meme resultat. 
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2 - Les statistiques de dispersion 

A - Minimum, maximum, intervalle de variation et rapport de variation 
1) Minimum et maximum d’une serie 

Revenons au tableau de statistiques resumees dans lequel figure, pour certaines des 
variables du tableau 1 , les valeurs minimale et maximale de la serie. 

Tableau de statistiques resumees pour certaines des variables du tableau 1 



Su perfume 
£km2| 

rrombre 

tie PrOhlifires 

teiTcstres 

av-ec 

d'autres pays 
<1* I UE 5 H 

Age 
median 
(estimation 
de juiUtl 

2 M n 

Indice de 

tetpndrte 

(en 

nombre 

d'enlants 

IMF 

Move Fine 
simple 


2,20 

3G, &0 


Valeur minima le 

316 (Maine) 

0,M 

24,3 fin de) 

0,93 (UK) 

Valeur maximglc- 

17 075 2oo 
i Bus 

fl 

(Allemaqnel 

43.5 

1 Jap on] 

2,B1 (Inde) 


Ces deux valeurs donnent une certaine idee de la dispersion. On voit par exemple 
que les ecarts entre les superficies des pays, de meme que I’ecart entre les 
populations sont tres importants. 

2) Intervalle de variation (ou « etendue ») 

L’intervalle de variation (IV) ou I’etendue de la serie est simplement une fagon de 
resumer le minimum et le maximum de la serie en un seul chiffre. On I’obtient ainsi : 

Intervalle de variation de la serie = valeur maximale - Valeur minimale 

Dans le tableau ci-apres, I’intervalle de variation a ete ajoute sur la derniere ligne 
pour les 8 series : 

Tableau de statistiques resumees pour certaines des variables du tableau 1 



Superficie 

£km2) 

Nombre 
de tremble* 
lerre-stres 

avet 

dTautres pays 

Age 
median 
(escimaiion 
de iuillet 
mi) 

Induce -de 
ffeeonaifc 
fwi 

nombre 

denfanls 

pet 

Moye Fine 
simple 


7,20 

MM 

1,52 

Valeur minimale 

315 (Malte) 

0,00 

2-i.Z [I ndej 

0M (HK) 

Valeur ma^imale 

17 075 200 
Ifiussie] 

3 

(Airemaqne) 

«,5 

(Japon) 

2,91 (Indc) 

Intervalle 
de variation 

17 074 364 

3,00 

I S JO 

1,33 


La derniere ligne donne I’intervalle de variation (arrondi au nombre entier le plus 
proche), c’est-a-dire la difference entre la valeur maximale et la valeur minimale. 
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3) Rapport de variation 

Le rapport de variation est simplement le rapport de la valeur maximale a la valeur 
minimale. Par exemple, si on calcule le rapport de variation des superficies des pays 
du tableau 1 . on obtient: 


17075201) 

316 


= 54 


B - Intervalle interquartile 

L’intervalle de variation ne donne qu’une idee imprecise et parfois fausse de la 
dispersion de la serie, car les valeurs extremes peuvent etre exceptionnelles et le 
reste de la population statistique etre concentre sur un intervalle beaucoup plus 
retreint. On peut parfaitement s’en rendre compte dans le tableau ci-dessus, oil les 
intervalles de variation sont enormes pour les superficies et pour les populations, car 
de toutes petites Ties (comme Malte) sont comparees avec des pays ayant presque 
la taille d’un continent (Russie, Chine, Inde). D’ou I’idee de calculer I’intervalle 
interquartile qui donne une idee plus precise de la dispersion des valeurs d’une 
serie (ou d’une distribution). Avant de definir I’intervalle interquartile, il convient 
cependant de definir les quartiles. 

1) Quartiles 

Les quartiles sont les trois valeurs qui partagent la population, dont les unites 
statistiques ont prealablement ete classees par ordre croissant de valeurs (de la 
variable consideree), en quatre sous populations de meme taille. On les designe 
respectivement par Qi, Q 2 et Q 3 . 
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2) Calcul des quartiles 


On notera que Q 2 = Me. Autrement dit, le deuxieme quartile n’est autre que la 
mediane que nous avons deja etudiee. II est important de noter qu’il n’existe pas 
d’algorithme universellement accepte pour determiner les quartiles Qi et Q3. 
Dans ce qui suit, nous utiliserons la formule employee par le logiciel EXCEL de 
Microsoft 6 . 

Prenons I’exemple de la serie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, 
on a n=20 

Le calcul de Qj (i=1,2 ou 3) s’effectuera des lors au moyen la formule suivante : 

Qi = a(k) +[f x [a(k+1) - a(k)]] 


S’agissant du premier quartile on aura done : 

Qi = a(k) + [fx [a(k+1)-a(k)]] 

Pour comprendre cette formule, il faut d’abord definir g : 

g = [(1/4)(n-1)]+1. 


6 Voir la notice technique sur le site de Microsoft: http://support.microsoft.eom/kb/103493/fr . La 
notice presente la formule differemment mais aboutit au meme resultat. Les principales autres 
methodes de calcul des quartiles sont resumees sur le site Math world . L’avantage de la methode 
Microsoft est qu’il n’est pas necessaire d’appliquer une formule differente suivant que n est 
pair ou impair. 

Le logiciel Mathematica (version 6), determine quant a lui les quartiles de la fagon suivante : 

■ Quartiles [to ] is equivalent to -Quantile [to , {1/4, 1/2, 3 / 4} r {{1 / 2, O}, {O, 1}} ] . 

■ The second quartile is equivalent to Median [to]. 

For even Length [ to] P the first quartile is equivalent to the median of the ^ smallest elements in to. 

■ For odd Length [to] ( the first quartile is equivalent to the average of the median 

of the smallest elements and the median of the smallest elements in to. 

2 2 

■ The third quartile is defined as for the first r but with the largest rather than smallest elements. 


S’agissant de la serie precedente, on trouve ainsi Q 3 = 11,175 avec Mathematica : 

linj[4]:= Quartiles [{8.4, 8.5, 8.9, 9, 9.1, 9.5, 9.5, 9.6, 10.5, 11.1, 11.1, 11.2, 11.5, 11.6, 11.7}] 
Out(4J= { 9.025 P 9.6, 11.175} 

Un autre algorithme de calcul est propose dans I’annexe a ce chapitre . 
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Une fois que Ton a definit g, on peut en deduire k et f : 

• k represente le rang de la valeur dans le classement du tableau ci-dessous et 
est egal a la partie entiere de g 

• f est la partie decimale de g. 

• a(k) est la valeur associee au rang k et a(k+1) est la valeur associee au rang 
k+1 Si Ton applique cette formule, on voit que : 

g = [(1/4)(20-1)]+1=5,75 

Par consequent k= 5 eif = 0,75. On a done a(k) = 2 et a(k+1)=2. Des lors : 

Q 1 = 2 + [0,75 x (2-2)] = 2 
On peut suivre la formule sur le tableau ci-apres : 



Serie classee 

Rang 



0 

1 



1 

2 



1 

3 


1 1 

1 

4 


a(k) 

n — 2 H „ ^ 

-► 2 

5 *- 

— k 

1 a(k+1) - 

-► 2 

6 *- 

k+1 


2 

7 



2 

8 



2 

9 



3 

10 



3 

11 



3 

12 



3 

13 



3 

14 



4 

15 



4 

16 



4 

17 



4 

18 



5 

19 



5 

20 



Le calcul de Q 3 s’effectue au moyen de la meme formule que pour Qi, soit: 

Q 3 = a(k) + [fx [a (k+1) - a(k)]] 


Mais avec un changement dans la definition de g. Desormais on a : 

g = [(3/4)(n-1)]+1 


Prenons toujours I’exemple de la serie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 
4, 5}, on a n=20. Des lors : 

g = [(3/4) (n-1)] +1 = [(3/4) (20-1)]+1=15,25 


Par consequent k= 15 et f = 0,25. On a done a(k) = 4 et a (k+1)=4. Des lors : 

Q 3 = 4 + [0,25 x (4-4)] = 4 
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On peut suivre la formule sur le tableau ci-apres : 




Serie classee 

Rang 




0 

1 




1 

2 




1 

3 




1 

4 




2 

5 




2 

6 




2 

7 




2 

8 




2 

9 




3 

10 




3 

11 




3 

12 




3 

13 




3 

14 




_ 4 

IE - 


„ 1 a l K J 



k 

0 - 1 = J 

^ 1 

afk+ 1 ) 

_^ A 




k +1 


| _ 1 J 

4 

17 




4 

18 




5 

19 




5 

20 



3) Intervalle interquartile 

L'intervalle interquartile (IIQ) est la difference entre le troisieme quartile et le 
premier quartile. II s'ecrit: 


IIQ - Q,3- Qi 


L'intervalle interquartile sert a apprecier la dispersion de la serie, de fagon absolue, 
ou bien par comparaison avec une autre serie (a condition que les valeurs de I’autre 
serie soient exprimees dans la meme unite). En effet, les valeurs Qi et Q 3 delimitent 
une plage au sein de laquelle environ 7 50% des valeurs de la serie sont 
concentrees. Plus cet intervalle est large, plus la serie est dispersee. Dans 
I’exemple que nous avons utilise, I’llQ est egal a 4-2 = 2. 


Le tableau ci-apres donne la mediane, Qi et Q 3 , ainsi que l’intervalle interquartile 
pour certaines des variables du tableau 1 . Les calculs ont ete effectues avec 
Microsoft EXCEL en utilisant la meme formule que celle proposee ci-dessus et 
donnent par consequent, sauf erreur, les memes resultats que si les calculs sont 
effectues avec une machine a calculer ou a la main (certains problemes d’arrondis 
peuvent creer de legeres divergences non significatives). 


7 C’est pour cette raison que les algorithmes de calcul different. 
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Tableau de statistiques resumees pour certaines des variables du tableau 1 



Superfreie 

(km2| 

Mombre 
de front** r« 
teirreslres 

avec 

d'autrea pays 
de riJE a 37 

Age 
median 
[e slimation 
de juilleS 
300M 

Indite de 
TitOIVdit& 
jen 

nombre 

d'enlanta 

par 

Moyenne 

simple 


2,30 

UM 

1.52 

Valeur minimal* 

31S (Malle) 

0,00 

?4,3 Jlnde) 

o.aa m\ 

Valeur maximale 

17 075 2M 

(Huliii} 

s 

(Allemagne] 

43, t 
{Japon} 

2,01 (Indc) 

liUerv-alle 
de variation 

17Q74SB4 

0.0 0 

1fl,70 

W 

qi 

4? 310 

1,00 

37,79 

L ijni 



4.00 

41.00 

2M 

Medians 

92 931 

3,00 

30, SO 

1 M 

interval le 
Interquartile {HQ) 

341 MS 

3,00 

3.35 

1M 


C - Variance, ecart-type et coefficient de variation 

Ces trois statistiques sont liees entre elles. Elies sont toutes les trois des indicateurs 
de la dispersion d’une serie par rapport a sa valeur moyenne. Le plus simple est de 
commencer par I’etude de la variance. 

1) La variance 

La variance est un indicateur de la dispersion d’une serie par rapport a sa moyenne. 
De meme que la moyenne, elle se resume a un seul chiffre qui s’obtient par un calcul 
que nous allons decomposer ci-apres. 

a) Definition 

La definition de la variance d’une serie de chiffres est donnee par la formule 8 : 

« ,=i 

Ou : 

• V designe la variance des n valeurs associees aux n unites statistiques de la 

population. Chacune de ces valeurs est designee par Xj, le i etant un indice 
qui varie de 1 a n (i = 1 .n). 

• X est la moyenne arithmetique simple des n valeurs associees aux unites 
statistiques Xj (/= 1, ..., n). 

8 Nous donnons ici la formule de la variance des valeurs associees aux unites statistiques d’une 
population et non la variance d’un echantillon de cette population, dont la definition est legerement 
differente. En effet, pour calculer la variance d’un echantillon, on divise par n-1 au lieu de diviser par 
n. Mais dans ce cas le « n » de I’echantillon est evidemment beaucoup plus petit que le « n » de la 
population et Ton difference alors les deux en designant par N le nombre d’unites statistiques de la 
population et par n le nombre d’unites statistiques de I’echantillon. De plus, si Ton veut extraire 
plusieurs echantillons de la population, on est amene a rajouter un indice aux n pour les distinguer (on 
prendra alors I’indice j puisque I’indice / est deja utilise pour designer les unites statistiques elles- 
memes). 
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b) Exemple 

Soit la serie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1,3, 3, 4, 5} ou n= 20. Pour 
calculer la variance de cette serie, on procede ainsi: 

• Toujours se ramener a une serie : par exemple, si au lieu d’avoir une serie 
on avait la distribution suivante : 


0 1 

1 3 

2 5 

3 5 

4 4 

5 2 


II faudrait d’abord la transformer en serie. 


• Calculer la moyenne arithmetique simple : 


A 


1 " 

« .=1 


4 + 0 + 1 + 1 + 2 + 2 + 2 + 3 + 3 + 4 + 2 + 3 + 4 + 5 + 2 + 1 + 3 + 3 + 4+5 

20 
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20 


= 2,7 


• Retrancher ensuite cette moyenne de chacune des 20 valeurs de la serie 

(colonne 3 du tableau ci-apres). 

• On obtient ainsi une serie qui comprend des valeurs negatives (car certaines 
valeurs de la variable sont inferieures a la moyenne et done si on retranche la 
moyenne elles deviennent negatives) et des valeurs positives (car certaines 
valeurs de la variable sont superieures a la moyenne et done si on retranche 
la moyenne elles restent positives). 

• Afin de tenir compte a la fois des distances positives et negatives, on ne peut 
pas additionner immediatement les valeurs de la colonne 3. II faut d’abord 
elever au carre chacune de ces valeurs, de fagon a obtenir une serie de 
valeurs positives (colonne 4). 

• Cette serie de valeurs positives reflete deja en elle-meme la dispersion par 
rapport a la moyenne. Mais il faut encore additionner ces valeurs pour avoir 
un chiffre unique (derniere valeur en caractere gras dans la colonne 4) 

• Diviser ensuite ce total par n, pour avoir en fait une sorte de moyenne. C’est 
pour cela que Ton dit que la variance n’est finalement que « la moyenne du 
carre des ecarts a la moyenne ». Et Ton obtient la variance de notre serie de 
chiffres, soit ici: 


v ( x ) = -'L( x t - x ) 2 = ~ n 

n [= i 20 


36,2 


= 1,81 
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Tableau pour la disposition du calcul de la variance 


Colonne 1 


X 5 

*7 

X g 

Xg 


^15 


It 


X 

X L7 

X LS 

X L9 

X 20 


Colonne 2 

Valeurs de la variable .X 
(designees par x-) 

4 

0 

1 

1 

2 

2 

2 

3 

3 

4 
2 

3 

4 

5 
2 
1 
3 

3 

4 

5 


Colonne 3 


Colonne 4 




/ —\2 

x. - X 


(x.-x) 

I 


V 1 } 


1,3 

-2,7 

-1,7 

1,7 

-0,7 

-0,7 

-0,7 

0,3 

0,3 

1,3 

-0,7 

0,3 

1.3 

2.3 
-0,7 
-1,7 
0,3 
0,3 

1.3 

2.3 


1,69 

7,2S 

2,89 

2,89 

0,49 

0,49 

0,49 

0,09 

0,09 

1,59 

0,49 

0,09 

1,69 

5,29 

0,49 

2,89 

0,09 

0,09 

1,69 

5,29 


¥r , . 1 " , ,2 36.2 

=ir =C1 ' 81 















































n 

Z(-v 

i-1 

-) 1 










c) Utilite de la variance 

La variance n’est pas d’une grande utilite en soi. On peut seulement dire que plus 
elle est elevee, plus la dispersion autour de la moyenne est elevee. Mais comme les 
ecarts a la moyenne ont ete eleves au carre, le chiffre obtenu, quoiqu’exprime dans 
I’unite de la variable, est generalement assez eleve et « encombrant ». C’est 
pourquoi, on utilise surtout la variance comme calcul intermediaire pour obtenir 
recart-type et le coefficient de variation. 
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2) L’ecart-type 

a) Definition 

La definition de I’ecart-type d’une serie de chiffres est donnee par la formule : 


(7 


jf 



En d’autres termes, I’ecart-type est egal a la racine carree de la variance. 

b) Exemple 


Soit la serie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1,3, 3, 4, 5} ou n=20. 


Nous voulons calculer I’ecart-type. Nous avons deja calcule la variance : 

V(x)=1,81 

II suffit done de prendre la racine carree de la variance et Ton obtient: 

1,345 


c) Utilite de I’ecart-type 
Defagon generale : 

• si I’ecart-type est faible, cela signifie que les valeurs sont assez concentrees 
autour de la moyenne. 

• si I’ecart-type est eleve, cela veut dire au contraire que les valeurs sont plus 
dispersees autour de la moyenne. 

Exemple : Dans une usine, le fait d’avoir un ecart-type aussi bas que possible peut 
constituer un objectif de controle de qualite. Soit une entreprise qui fabrique un 
certain composant et qu’un des elements du controle de la qualite consiste a 
mesurer le diametre du composant. Chaque composant aura done son diametre 
mesure. On calculera ensuite le diametre moyen, puis I’ecart-type. Si I’ecart-type est 
faible, cela signifie que les pieces ont dans I’ensemble un diametre proche de la 
moyenne, done que leur diametre se ressemble. A la limite, un ecart-type nul signifie 
que toutes les pieces ont le meme diametre. Inversement, plus I’ecart-type est eleve, 
plus il y a de pieces dont le diametre s’ecarte de la moyenne et qui risque de ne pas 
cadrer avec le systeme auxquelles elles sont destinees. 
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Une autre utilite de I’ecart-type est de servir de bornes. On regardera par exemple 
combien de valeurs de la serie sont comprises dans I’intervalle defini par: 

[x-<t x ;x+<t x ] 

Dans I’exemple de S = {4, 0, 1, 1,2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, dont nous 
avons deja calcule la moyenne simple (2,7), nous obtenons I’intervalle suivant: 

[2,7 - 1,345 ; 2,7 + 1,345] = [1,355 ; 4,045] 

Pour savoir combien d’unites ont des valeurs comprises dans cet intervalle, il faut 
classer la serie par ordre croissant des valeurs de la variable et ensuite encadrer les 
valeurs comprises dans I’intervalle. On voit ainsi que 14 unites sur 20 ont des valeurs 
comprises dans I’intervalle, ce qui represente 70% de la population. Si ces valeurs se 
rapportaient aux caracteristiques des pieces d’un processus industriel on pourrait 
juger que la qualite est acceptable ou bien au contraire se fixer comme objectif 
d’augmenter le nombre de valeurs qui sont dans cet intervalle. On voit que cet 
intervalle est avec I’intervalle interquartile une autre fagon de mesurer la dispersion 
d’une serie. 

Nombres d’unites statistiques dont la valeur est comprise dans I’intervalle 

[*-<7,;*+<T,] 


totortne i 

Cobrtrt# 2 



valeurs d& 

lavariatole X 








0 



1 



i 


*lfi 

i 



K i 

2 

I 



*^ 

2 




*7 

2 





2 




*15 

2 




** 

3 


14 valeurs su rJO {70%} 



3 


v>nX conipfiw dans 


*1Z 

3 


Tintervale 


*17 

3 


[x-<T x ;x+CF x ] 


*11 

3 





4 




*in 

4 




*13 

4 




*is 

4 

4,tWS 



*14 

5 


*M 

5 
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3) Le coefficient de variation 

L’ecart-type est un outil interessant pour mesurer la dispersion d’une serie, ainsi que 
nous venons de le voir. Mais il possede une limite : II est exprime dans I’unite de la 
variable dont il mesure la dispersion des valeurs. 

Ainsi, par exemple, si on veut comparer les dispersions de deux series qui sont 
exprimees dans des unites differentes, on ne peut pas. 

Le tableau de statistiques resumees ci-apres donne I’ecart-type de certaines des 
variables du tableau 1 . On peut regarder chaque ecart-type et constater qu’il est 
eleve ou pas, mais on ne pourrait comparer chaque ecart-type qu’a un autre ecart- 
type exprime dans la meme unite. 


D’ou I’idee de calculer le coefficient de variation qui est egal a I’ecart-type divise 
par la moyenne, c’est-a-dire : 



fT 


x 


X 


Le tableau ci-dessus donne le coefficient de variation de certaines des variables du 

tableau 1 . 

Tableau de statistiques resumees pour certaines des variables du tableau 1 



SuptHkie 

tkmll 

Membra 

da frontieres 

icrrcstrti 

avoc 

d'autrea pays 
de I'UE a 27 


Age 

median 

(estimation 

de jgillei 

2007) 

Indice de 

fatondite 

(en 

nombre 

d'enlanta 

par 

Mc^nni 

simple 


2,30 


3S.B0 

1.52 

Valour minimale 

JIG (Malle) 

0,00 


24,# Unde) 

0,9# <hk> 

Valeu r' maximal* 

17 075 2W 

IflUHM} 

8 

lAliemagne] 


43.5 

■Uaponl 

2,B1 (lnde| 

Inlervalle 

de vananort 

17 074GG4 

#,00 


1#,79 

W 

Q1 

4? 310 

1,00 


37.75 

1.00 

Q1 

J47 026 

4.00 


41,00 

2.00 

Mediane 

92 931 

2,00 


39,50 

140 

IniervaJle 
Intflr-Qpanile |IIQj 

m ns 

3,00 


3,29 

1.00 

Eearl-tvpc 


1.97 


3.17 

6.13 

Coefficient da 
vacation 


0.39 


0jO& 

0.22 


3 - Resume 

On distingue deux types de statistiques resumees : Les statistiques de tendance 
«centrale» (mode, moyenne, mediane) et les statistiques de dispersion 
(intervalle de variation, intervalle interquartile). Ces deux types peuvent etre 
combines pour donner des statistiques resumees plus elaborees telles que I’ecart- 
type, la variance et le coefficient de variation. 


56 























Le mode d'une serie est la valeur (de I’unite statistique) qui revient le plus 
frequemment dans la serie. 


La moyenne arithmetique simple d’une serie est egale a la somme des valeurs 
(des unites statistiques) de la serie, divisee par le nombre total d’unites statistiques 
(la population). 

La mediane est la valeur de la variable (et dans certains cas, la modalite du 
caractere) qui partage la population, dont les unites statistiques ont prealablement 
ete classees par ordre croissant des valeurs (de la variable consideree), en deux 
sous populations egales. 


L’intervalle de variation d’une serie est egal a la valeur maximale de la serie moins 
la valeur minimale de la serie. 

Le rapport de variation est simplement le rapport de la valeur maximale a la valeur 
minimale. 

Les quartiles sont les trois valeurs qui partagent la population, dont les unites 
statistiques ont prealablement ete classees par ordre croissant de valeurs, en 
quatre sous populations de meme taille. On les designe respectivement par Qi, Q 2 
et Q 3 . 


L'intervalle interquartile (IIQ) est la difference entre le troisieme quartile et le 
premier quartile. 

La variance est egale a la moyenne des carres des ecarts a la moyenne 
arithmetique de la serie. 

L’ecart-type est egal a la racine carree de la variance. 

Le coefficient de variation est egal a I’ecart-type divise par la moyenne 
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Annexe : Methode alternative pour le calcul des quartiles 

Cette methode ne correspond pas a celle employee par EXCEL, ni par les autres 
logiciels de calcul. Elle n’est donnee ici qu’a titre d’information parce qu’elle est 
la plus logique. C’est aussi la methode qui est proposee dans Wikipedia : 


i) Toujours se ramener a une serie : Si les donnees se presentent sous forme 
d'une distribution par valeurs, convertir la distribution en serie. 

ii) Classer la serie : Une fois la serie constitute, I'ordonner en classant les chiffres 
par ordre croissant. 

iii) Determiner le quotient et le reste de la division de n par 4 : Soit n le nombre 
d'elements de la serie et p le quotient de la division de n par 4. Quatre cas peuvent 
se presenter, suivant les quatre valeurs possibles du reste de la division de n par 4. 
On peut en effet avoir n=4p (pas de reste) ; n=4p+1 (reste 1); n=4p+2 (reste 2); 
n=4p+3 (reste 3). Envisageons successivement ces quatre cas. 

a) Cas ou n = 4p 

C'est le cas ou, quand on divise n par 4, on trouve p et que le reste est nul. Dans ce 
cas, on a : 

Qi = moyenne entre la p e et (p+1) e valeur. 

Q 2 = Me = moyenne entre la ( 2 p) e valeur et la ( 2 p +1 ) e valeur. 

Q 3 = moyenne entre la (3p) e valeur et la (3p+1) e valeur 

Exemple : si Ton prend la serie {4, 0, 1, 1,2, 2, 2, 3, 3, 4, 2, 3, 4, 5 , 2, 1,3, 3, 4, 5}, 
on a n = 4 p = 20 <=> p=5. 
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En classant cette serie on obtient le tableau suivant: 




Nombre d'enfants 

Rang 




0 

1 



1 

2 




1 

3 




1 

4 


( 

/ n \eme valeur 

— _ _ 
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jeme valeur 

* 2 5 *— 

P 

-► 2 6 *— 

p+1 



2 
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2 
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2 
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-► 3 10 

fc ^ 1 I j: 

ro 

"O 

1 
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-- -i 

^ 3 1 1 ^ — 

z p +1 



3 

12 




3 

13 




3 

14 



.■-1 ■■.erne valeur 

A 1 C 

“1 .... 

ypp) 

r -*4 | □ — 

fc 4 1R ^ 


1 

^p+tfme valeul 

■j... , -i 

r 1 1 LJ ^- 

jp+1 



4 

17 



4 

18 




5 

19 




5 

20 








Fichier EXCEL 


Par consequent, on a : 

Qi = moyenne entre la p e et la (p+1) e valeur =(2+2)12=2 

Q 2 = Me = moyenne entre la ( 2 p) e valeur et la ( 2 p+ 1 ) e valeur = (3+3)/2=3 

Q 3 = moyenne entre la (3p) e valeur et la (3p+1) e valeur = (4+4)12=4 

Les 4 groupes de valeurs sont: {{0, 1, 1, 1, 2}, {2, 2, 2, 2, 3}, {3, 3, 3, 3, 4}, {4, 4, 4, 5, 
5}} 

b) Cas ou n = 4p + 1 

Dans ce cas, le reste de la division par 4 est 1 et Ton a : 

Qi = moyenne entre la p e et la (p+1 ) e valeur. 

Q 2 = ( 2 p+ 1 ) e valeur. 

Q 3 = moyenne entre la (3p+1) e valeur et la (3p+2) e valeur. 

Exemple : si Ton prend la serie {4, 0, 1, 1,2, 2, 2, 3, 3, 4, 2, 3, 4, 5 , 2, 1, 3} on a 
n =17 et n = 4p + 1, avec p = 4. 
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En classant cette serie on obtient le tableau suivant: 










Nombre d'enfants 
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Fichier EXCEL 


Par consequent, on a : 

Qi = moyenne entre la p e et la (p+1) e valeur = (1+2)/2=1,5 
Q 2 = ( 2 p +1 ) e valeur = 2 

Q 3 = moyenne entre la (3p+1) e valeur et la (3p+2) e valeur=(3+4)/2=3,5 

Les 4 groupes de valeurs sont: {{0, 1, 1, 1}, {2, 2, 2, 2}, 2, {3, 3, 3, 3}, {4, 4, 4, 5}} 

On a exclu Q 2 =Me pour obtenir 4 groupes egaux. 

c) Cas ou n = 4p + 2 

Dans ce cas, le reste de la division par 4 est 2 et Ton a : 

Qi =(p+1) e valeur. 

Q 2 = moyenne entre la ( 2 p+ 1 ) e valeur et la ( 2 p+ 2 ) e valeur. 

Q 3 = (3p+2) e valeur 

Exemple : si Ton prend la serie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5 , 2, 1, 3, 3}, on a 
n=18 et n = 4p+2, avec p= 4. 
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En classant cette serie on obtient le tableau suivant: 



Fichier EXCEL 


Par consequent, on a : 

Qi =(p+1) e valeur = 2 

Q 2 = moyenne entre la ( 2 p+ 1 ) e valeur et la ( 2 p+ 2 ) e valeur = (2+3)/2=2,5 
Q 3 = (3p+2) e valeur =3 

Les 4 groupes de valeurs sont: {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, {3, 3, 3, 3}, 3, {4, 4, 4, 
On a exclu Qi et Q 3 pour obtenir 4 groupes egaux. 

d) Cas ou n = 4p + 3 

Dans ce cas, le reste de la division par 4 est 3 et Ton a : 

Qi =(p+1) e valeur. 

Q 2 = (2p+2) e valeur. 

Q 3 = (3p+3) e valeur. 

Exemple : si Ton prend la serie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5 , 2, 1, 3, 3, 4} 
a n=19 et n = 4p+3, avec p= 4. 























































En classant cette serie on obtient le tableau suivant: 



Fichier EXCEL 


Par consequent, on a : 

Qi =(p+1) e valeur = 2 
Q 2 = (2p+2) e valeur = 3 
Q 3 = (3p+3) e valeur = 4 

Les 4 groupes de valeurs sont: {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, 3, {3, 3, 3, 3}, 4, {4, 4, 4, 
5}} 

On a exclu Qi, Q 2 et Q 3 pour obtenir 4 groupes egaux. 
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i= nombre d'unites statistiques de la serie p = quotient de la division de n par 4 


Tableau recapitulate 

Fichier EXCEL 
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Chapitre 4 

Indices et progressions 


0 - Introduction 

1 - Indices 

A - Nombre indice elementaire 
B - Serie indice elementaire 
C - Indice svnthetigue 

1) Definition 

2) Indice svnthetique devolution des prix de LASPEYRES 

a) Definition 

b) Exemple 

3) Indice devolution des guantites de LASPEYRES 

a) Definition 

b) Exemple 

4) Indice des prix de I'lNSEE 

2 - Progressions 

A - Variation absolue 
B -Taux de croissance sur une periode 

C - Taux de croissance sur plusieurs periodes : formule du taux moven 

It Formule de calcul directe 

a) Definition 

b) Exemple 

2) Formule indirecte (en passant par les accroissements successes) 

a) definition 

b) Exemple 

D - Taux de croissance du produit de 2 valeurs 

E - Taux de croissance du rapport de 2 valeurs 

F - Complements 

1) Augmentations (diminutions) successives 

2) Augmentation en pourcentage suivie d'une diminution identigue 

3) Temps de doublement d'une grandeur 


3 - Resume 

Annexe : Demonstration des formules de calcul du taux de croissance moven 
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0 - Introduction 


Nous avons vu au chapitre 2 que les chiffres d’une serie pouvaient etre preserves 
sous forme d’effectifs, de pourcentages et de pourcentages cumules. Mais ce n’est 
pas tout: les chiffres d’une serie peuvent aussi etre mis sous forme d’indices. De 
plus, il est frequent que Ton souhaite etudier une serie dont les valeurs changent au 
cours du temps ou bien, plus simplement, que les valeurs d’une seule serie 
correspondent a differentes valeurs dans le temps (il s’agit alors d’une serie 
chronologique). Dans ces deux cas, le calcul d’un indicateur de progression (taux 
de variation ou taux de croissance) va permettre de resumer 1’evolution avec un seul 
chiffre. Les indices et les progressions sont aussi utilises pour comparer des 
situations (generalement deux series dont les valeurs changent selon le lieu). 

1 - Indices 

A - Nombre indice elementaire 

Un nombre indice est une mesure de la variation d’une grandeur courante 
comparee a une grandeur de reference et appelee « base ». 

Exemple : Au 1 er janvier 2009, le prix d’un produit A s’etablissait a 8 euros. Au 1 er 
fevrier 2009, le prix de ce produit A s’etablissait a 8,5 euros. 

On appelle periode (ou date) de base ou periode (ou date) de reference, la 

periode(ou date) la plus ancienne. Ici, la periode de reference est le 1 er janvier 2009. 

On appelle periode (ou date) courante ou periode (ou date) finale, la periode (ou 
date) la plus recente. Ici, la periode courante est le 1 er fevrier 2009. 

Notons par X la grandeur etudiee, par x 0 , la periode de reference et par x t la periode 
courante. 

Pour mesurer 1’evolution de la grandeur X de xo a x f , on calcule I ’indice elementaire 
suivant: 


Grandeur courante 
Grandeur de reference 


— xlOO 


Dans notre exemple du produit A, cela donne : 

I m = — X100 = 1,0625 X100 = 106.25 
8 

Lecture : La lecture de cet indice devolution se fait de la maniere suivante. On dit 
que 1’evolution entre la periode 0 et la periode t (ici entre le 1 er janvier 2009 et le 1 er 
fevrier 2009) est de 6,25%. 
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Remarque : Dans I’exemple precedent, la variation de la grandeur se faisait dans le 
temps. On designe I’indice qui la mesure par I’expression indice temporel. Mais la 
variation d’une grandeur n’a pas toujours lieu dans le temps. Elle peut avoir lieu dans 
I’espace. 

Un indice de situation, egalement appele indice spatial, est un indice qui concerne 
n’importe quelle comparaison de grandeur, hormis les comparaisons temporelles. 

Exemple : En 2006, le nombre de victimes d’accidents de la route en France a ete 
de 77 par million d’habitants, alors qu’au Portugal il a ete de 104 par million 
d’habitants 9 . L’indice de situation du nombre de victimes d’accidents est egal a 
(104/77)*100 = 135,06, si I’on prend le nombre d’accidents en France comme 
base, soit 35,06% de plus au Portugal qu’en France. 

B - Serie indice elementaire 

Une serie indice est une serie de chiffre divisee par une de ses valeurs et multipliee 
par 100. 

Exemple : Soit la serie Si = {1, 3, 7, 4,8,6, 11,9} 

Pour transformer cette serie en serie indice, nous allons diviser chaque element de la 
serie par I'un des elements, par exemple 7 (troisieme element) et ensuite multiplier 
chaque element par 100. On obtient alors : 

li = {14,3 ; 42,9 ; 100 ; 57,1 ; 114,3 ; 85,7 ; 157,1 ; 128,6} 

h est une serie indice. Sa base "100" est le troisieme element de la serie. On voit 
ainsi que le choix de la "base" est arbitraire. 

On aurait pu aussi diviser par le premier element de la serie. 

Mais plutot que de repartir de la serie initiale Si, on peut aussi partir de li et diviser 
chaque element par 14,3 et multiplier par 100. On a alors effectue un changement 
de base, la nouvelle base etant le premier element de la serie. 

b = [li/h(1)]*100 = {100, 300, 700, 400, 800, 600, 1100, 900} 

C - Indice synthetique 
1) Definition 

Un indice synthetique permet de mesurer revolution d’un ensemble de grandeurs. 
L’exemple le plus connu est I’indice synthetique devolution des prix. 

Un autre indice synthetique est aussi souvent calcule : c’est I’indice synthetique 
d’evolution des quantites. 


9 Chiffres publies par I’OCDE : 

http://oberon.sourceoecd.orq/vl=2311694/cl=16/nw=1/rpsv/factbook fre/11-04-02.htm 
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II existe plusieurs methodes de calcul des indices synthetiques. Le plus frequemment 
utilise de nos jours est I'indice de LASPEYRES. C'est pourquoi nous n'etudierons 
que cet indice dans ce cours introductif. 

2) Indice synthetique devolution des prix de LASPEYRES 

Pour calculer I’indice synthetique devolution du niveau general des prix I'lNSEE 
(Institut National de la Statistique et des Etudes Economiques) definit un panier a 
provision representatif des produits achete par un menage type et il mesure ensuite 
revolution des prix des biens qui composent ce panier entre deux dates. 

a) Definition 

L’indice de LASPEYRES devolution des prix mesure revolution, entre deux dates 
0 et t, des prix des biens qui composent un panier, en prenant comme reference la 
valeur du panier a la date initiale (t = 0) et en supposant que les quantites de biens 
dans le panier n’ont pas varie entre 0 et t. 

b) Exemple 

Soit le tableau ci-apres, qui donne les prix et les quantites de deux produits 1 et 2, 
aux dates 0 et t. On peut supposer que le produit 1 est un pantalon et le produit 2 un 
tee shirt ( voir le fichier EXCEL ). 



Date 0 

Date t 

Produit 1 

Po 1 — “1 5 

q o 1= 3 

Pi 1 =22 

q^lO 

Produit 2 

Po i= 7 

J=l 

II 

to 

Pt 2 =5 

J=J 

“hJ 

II 

CO 


Dans cet exemple, le prix du bien 1 (pantalon) augmente (de 15 a 22 euros) tandis 
que celui du bien 2 (tee shirts) baisse (de 7 a 5 euros). 

Mais les quantites aussi ont change. Pour diverses raisons, les gens ont achete plus 
de pantalons et moins de tee-shirts. II n'est pas necessaire que ces quantites 
evoluent en sens inverse des prix car il ne s'agit pas d’une relation instantanee, mais 
d'une evolution dans le temps. Pour mesurer 1'evolution des prix, LASPEYRES 
suppose done que les quantites ne changent pas. II pose la question : quelle serait 
1'evolution de la valeur de ce panier si les quantites n'avaient pas change ? 

Pour repondre a cette question et savoir si I'indice synthetique des prix ainsi defini 
augmente ou baisse, appliquons la formule de LASPEYRES devolution des prix : 


4 


/[i 


—-xioo 


11 2 2 
PtQo+PtQ 




pW 0 + pZq d 


5-x100 = 


i 22 x 3 1 + 1 5 x 9 1 
■ 15 x 3 > +17 x 91 


x 100 = 66+45 x100 = 111x100 = 102,8 
45 + 63 108 


On enregistre done une evolution des prix du panier de bien de 2,8 % selon la 
formule de LASPEYRES 
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3) Indice devolution des quantites de LASPEYRES 

a) Definition 

L’indice de LASPEYRES devolution des quantites mesure revolution, entre deux 
dates 0 et t, des quantites des biens qui composent un panier, en prenant comme 
reference la valeur du panier a la date initiale (t=0) et en supposant que les prix des 
biens dans le panier n’ont pas varie entre 0 et t. 

b) Exemple 

Reprenons le tableau precedent, qui donne les prix et les quantites de deux produits 
1 et 2, aux dates 0 et t voir le fichier EXCEL ). 



Date 0 

Date t 

Produit 1 

Po 1= 15 

CO 

II 

O' 

Pt 1= 22 

q t 1= 10 

Produit 2 

Po 2 =7 

_Q 

o 

hO 

II 

CD 

Pt 2 =5 

qt 2 =8 


Dans cet exemple, la quantite du bien 1 augmente (de 3 a 10 unites) tandis que 
celle du bien 2 baisse (de 9 a 8 unites). Pour savoir si I'indice synthetique des 
volumes augmente ou baisse, appliquons la formule de LASPEYRES devolution des 
quantites : 




EpM 

F = -xlOO 


/o 


V 




11 2 2 
_ p 0 q t +p 0 q t 

p' D q o + Pd<?o 


f 15 x 101 +17 x 8 ) 150 + 56 206 

x100=-xlOO = JU JP xlOO = —xlOO = 190.74 

i15x3i + i7x9i 45 + 63 108 


On enregistre done une evolution des volumes du panier de bien de 90,74 % selon la 
formule de LASPEYRES. 

4) Indice des prix de I'INSEE 

L’un des indices synthetiques les plus connus et les plus utilises est I’indice des 
prix a la consommation (IPC) publie chaque mois par I’INSEE. L'lPC permet de 
mesurer I'inflation, e’est-a-dire la variation du niveau general des prix des biens et 
des services consommes par les menages sur le territoire frangais entre deux 
periodes donnees. C'est une mesure synthetique des evolutions de prix a qualite 
constante. 

Pour le calculer, I’INSEE applique la formule de I’indice de LASPEYRES des prix a 
un echantillon de quelques 21000 indices elementaires. Ces 21000 indices 
elementaires sont calcules a partir de prix recueillis dans 106 agglomerations de plus 
de 2000 habitants reparties sur tout le territoire. L’indice couvre plus de 1000 varietes 
de produits, regroupees en 161 groupes. Pour eviter toute tentative de manipulation 
des prix, la liste precise de ces 1000 varietes de produits reste confidentielle. 
Actuellement, la periode de reference, ou « base » de I’lPC, est 1998. Ci-apres, le 
camembert qui donne la structure des ponderations par grandes categories de 
consommation. 
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Structure de la consummation de i'ensembie des manages 
utilIsee pour Tlndice 2007 



■ Produits alimfrntsires «l froisscns non 
alcoolisees 

□ Bgissons argoglisijs «l tabac 

■ Hab-illtment et cnaussurts 

■ Logcmrnt. *au. @az. «ltct ricrte at autrfl-s 
cornb-ustlftif* 

■ Ameufokmtrn. ifluipaifierit mina^arat 
entretlen courant de la maJson 

■ Sarrt* 

■ Transport 

□ Communrcations 

■ LoSslra at culture 

■ Edu c-at ion 

■ H gtcllcri t. -cans, no Stauration 

U Autre s bians at services 


10 .0% 


Source : Insee, http://www.insee.fr/fr/indicateur/indic cons/info ipc.htm 

L’lPC est publie aux environs du 13 de chaque mois et porte sur revolution des prix 
du mois precedent. Ce chiffre, regulierement relaye par les medias, est tres attendu 
car il sert de multiples fonctions economiques parmi lesquelles la connaissance de 
I’inflation, la definition des objectifs de la politique monetaire, mais aussi le 
versement de pensions et de divers revenus, tels le SMIC, dont le montant est « 
indexe » sur revolution de I’IRC. 

Depuis le milieu de I'annee 2006, I'indice des prix a fait I'objet de critiques et de 
controverses. Pour repondre a ces critiques I'lnsee met sur son site Internet, a 
disposition, un simulateur qui permet instantanement de mesurer "son" indice des 
prix personnels. II est disponible a ce lien : 
http://www.insee.fr/fr/indicateur/indic cons/indic sip.htm 

Finalement, void le tableau resume de revolution des prix, tel que publie par I'lNSEE 
en decembre 2008 (regulierement mis a jour et disponible a I'URL 
http://www.insee.fr/fr/indicateur/indic coni/indconi frame.aso?ind id=29 ) (voir le 
tableau ci-apres) 
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Indice des prix a la consommation, IPC Ensemble des menages r France entiere 



decembre 

2007 

novembre 

2003 

decembre 

2003 

e vo 1 . 

sur 1 

mois 

e vo 1 . 
sur 1 

an 

In dice des prix a la 
consom matron, IPC 
(base 100 en 1993) 






Ensemble des menages r 
France entiere 
[metropole et DOM] 






Ensemble [00 E) 

117 r 70 

119 1- 17 

HSrSS 

-0 r 2 

1 r 0 

Ensemble cvs [00 C] 

L 17 r 6S 

119 r 23 

113r33 

-0 r 3 

1,0 

Alimentation [4000 E] 

1 L9 r 69 

123 r 50 

123r55 

0 r 0 

3 r 2 

Tabac [0221 E] 

189 r 95 

191 r 1 0 

19 l r 10 

0 r 0 

0 r 6 

Produits manufactures 
[4003 E) 

10 L r 21 

10 l r 3 1 

10 l r 32 

0 r 0 

0 r 1 

Energie [4007 E) 

143 r S3 

14G r G3 

133 r 43 

-5rG 

-7 r 0 

Services [4009 E) 

12 L r 6S 

123 r 9S 

124 r 50 

0 r 4 

2 r 3 

Alimentation y c. Tabac 
(4014 E) 

12G r 07 

129 r 7G 

129rSl 

0,0 

3 r 0 

Manufactures y c. Energie 
[4015 E) 

109^44 

109 r 20 

10 3 r 0 0 

-lrl 

- l r 3 

Manufactures hors 
Habillement et 
chaussures [401G E) 

100 r 40 

100 r 43 

100 r 4 1 

-0 r l 

0,0 

Ensemble hors loyers et 
hors tabac [5000 E) 

HGrOO 

117 r 44 

117 r 12 

-0 r 3 

1,0 

Ensemble hors energie 
(4017 E) 

115 r 37 

117 r 0S 

117 r 32 

0 r 2 

l r 7 

Ensemble hors tabac 
[4018 E) 

t tG r 4G 

117 r 92 

117rG3 

-0 r 2 

1 r 0 

Manages urbains dont le 
chef est ouvrier ou 
employer France entiere 
[metropole et DOM) 






Ensemble hors Tabac 
[4013 D) 

LlG r 3G 

117 r 90 

117 r G5 

-0 r 2 

lrl 

Ensemble [00 □) 

llE r 19 

119 r 73 

119r43 

-0 r 2 

lrl 

InFlation sous-jacente 






Ensemble des menages r 
France metropolitaine 






Ensemble <sous 
jacent^- [4022 S) 

114 r 07 

1 1 G r 0 5 

11G r 13 

0 r 1 

IrS 

In dice des prix a la 
co nso m mati o n 
harmonise de la France r 
IPCH [base 100 en 2005) 






Ensemble des menages r 
France entiere 
[metropole et DOM) 






Ensemble IPCH [00 H) 

105 r 2G 

106 r 79 

10G r 50 

-0 r 3 

lr2 


Les codes entre parentheses correspondent a des regroupements d'interet pour 
T analyse economique, appeles regroupements conjoncturels. I Is sont repris en 
particulier dans les tableaux detail les de I 1 Informations Rapides sur les prix a la 
consommation et dans les fichiers telechargeables du mo is. 

So L/rce ; Insee 
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2 - Progressions 

Soit la valeur numerique V au temps t qui s'ecrit respectivement V 0 quand t=0, Vi 
quand t=1 et V t quand t est une date quelconque. 

A - Variation absolue 

La variation absolue de la valeur V entre le temps 0 et le temps t s'ecrit: 

AV = V t -V 0 

Exemple : Soit V 0 = 1 500 euros la somme dont je dispose a la date 0 et Vi = 2 000 
euros la somme dont je dispose a la date 1. 

Ici, t=1, done la variation absolue entre la date 0 et la date 1 s’ecrit: 

V 1 -V 0 = 2 000- 1 500 = 500 

B - Taux de croissance sur une periode 

Le taux de croissance sur une periode de la valeur V entre t = 0 (date du debut de 
la periode) et t =1 (date de fin de la periode) s'ecrit 10 : 


entre la date 0 et la date 1, de la somme dont je 

500)/ 1500 =500/1 500= 0,33333 

Le taux g? s'exprime frequemment en pourcentages. Dans ce cas on le multiplie par 
100. Ainsi la somme dont je dispose a augmente de 0,333333 x 100 = 33, 33 %. 


Calculons le taux de croissance, 
dispose : 

gi= (2 000- 


10 Le mot « valeur» est ici employe au sens de « grandeur», pas dans le sens de « valeur 
monetaire », quoiqu’on puisse egalement appliquer la formule a des valeurs monetaires, mais pas 
uniquement. 
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C - Taux de croissance sur plusieurs periodes : formule du taux moyen 

II existe deux fagons equivalentes de calculer le taux de croissance moyen d’une 
grandeur sur plusieurs periodes. Ces deux fagons donnent le meme resultat. La 
premiere est plus rapide que la seconde. 

1) Formule de calcul directe 

a) Definition 

Soit une grandeur G qui prend les valeurs Vo, Vi, V 2 , ...., V h ...., V t . La formule 
directe du taux de croissance moyen de 0 a t est donnee par I'expression 11 : 


Ou g = taux de croissance moyen, V 0 = grandeur a la date 0, V t = grandeur a la date 
t et le t qui figure dans I'exposant 1/t est le nombre de periodes sur lequel le taux 
moyen est calcule. 

b) Exemple 

Soit une entreprise dont le chiffre d'affaires en euros de 2004 a 2008 est donne par 
le tableau ci-dessous : ( Fichier EXCEL ) 


Annees 

V 

Chiffre 

d'affaires 

2004 

Vo 

210000 

2005 

Vi 

200000 

2006 

v 2 

330000 

2007 

V 3 

450000 

2008 

Vi 

500000 


lei, on a V 0 = 210000 et V t =V 4 = 500000. Done 


Q 


i I 


K 

* 

- i - 

300000 

K, 


2i0000 i 


-1 -1,242189 -1 = 0,242189 


(Fichier EXCEL ) 

Soit un taux de croissance moyen egal a 24,2%. 


11 Voir I’annexe a ce chapitre pour la demonstration de cette formule. 
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2) Formule indirecte (en passant par les accroissements successifs) 
a) definition 

Le taux de croissance moyen g peut aussi s'ecrire 12 : 

i 

g = [(1 + g t ) il + g tA ).... 1 + g 2 j (i + g i j J -1 


Avec : 


9s = 


K - K-! 

K 


Ou / varie de 1 at. 

b) Exemple 

Calculons le taux de croissance annuel du CA entre 2004 et 2005, puis entre 2005 et 
2006, 2006-07 et enfin 2007-08. Nous allons ainsi avoir 4 taux de croissance g 1t g 2 , 
g 3 et g 4 . Le tableau ci-dessous resume les calculs : 




5- 

1+ g, 

2TO4- 05 

9t 

0,33333333 

11,33333333 

2005- 

g 2 

0,17357143 

1,17857143 

2TO6-07 

k. 

0,363&3&36 

1,36363636 

2007-Ofl 


0,11111111 

1,11111111 


(Fichier EXCEL ) 

Ainsi, pour la premiere periode, 2004-05, on aura : 

280000-210000 70000 

g , =-=-= 0,3333 

‘ 1 210000 210000 

Et ainsi de suite pour g 2 (2005-06), g 3 (2006-07) et g 4 (2007-08). 

La derniere colonne du tableau donne (1+gi), (1 + g2), (1 + g3) et (1+g 4 ). Effectuons le 
produit: 

(1+gi)x(1+g 2 )x(1+g 3 )x(1+g 4 ) = 1,333 x 1,17857 x 1,36363 x 1,11111 = 

2,38095238 


12 Voir I’annexe a ce chapitre pour la demonstration de cette formule. 


73 















Puis elevons ce produit a la puissance 1/4 = 0,25 : 

[(1+gi) x (1+g 2 ) x (1+g 3 ) x (1+g 4 )] <1/4> = (2,38095238) (1/4) = 1,242189 
II nous reste a calculer g : 


1+g =1,242189 og = 0,242189 

Soit un taux de croissance annuel moyen en pourcentage de 24,2 % (Fichier 
EXCEL ). 

D - Taux de croissance du produit de 2 valeurs 

En economie, on raisonne frequemment sur des valeurs qui sont en fait le produit 
d'un prix et d'une quantite. C'est le cas par exemple de la recette totale, dont la 
definition est: 


RT = pyq 

p est le prix d'un produit quelconque et q sa quantite. Dans ce cas, si le prix varie et 
que la quantite varie aussi, on peut souhaiter calculer le taux de croissance du 
produit des deux, c'est-a-dire le taux de croissance de la recette totale. 

Soient le prix p t et la quantite q t . L'evolution du prix p t et de la quantite q t par rapport 
a la periode precedente peut s'exprimer ainsi : 


Pt =(l+g P )pt-i 


qt=(i+g q )qt-i 


oil g p et g q sont les taux de croissance respectivement du prix et de la quantite entre 
t -1 et t. 

Partant de ces deux expressions, la recette totale en t s'ecrit alors : 


RT t = p t q t =(1 + g p )(1 + g q )pt-i qt-i = (1 + g P )(1 + g q )RTt-i 
On en deduit son taux de croissance entre t-1 et t: 


g R T=(RTt/RTt-i) -1=(1 + g P )(1 + g q )-1 


Exemple : Un commergant augmente le prix d'un produit de 1% (g p = 0,01). A la 
suite de cette augmentation, la quantite vendue baisse de 4% (g q =-0,04). Pour 
connaTtre revolution de la recette totale, on va calculer son taux de croissance a 
partir de la formule precedente: 


g RT = (RT t / RT t -i) -1 =( 1 +g p )(1 + g q )-1 
g RT = (1 + 0,01 )(1 - 0,04) - 1 =(1,01 x 0,96) - 1 = 0,9696 - 1 = -0,0304 
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La recette totale a diminue de 3,04% a la suite de la hausse du prix de 1 % et de la 
baisse de la quantity de 4%. 

E - Taux de croissance du rapport de 2 valeurs 

De la meme fagon que Ton a parfois besoin de connaTtre le taux de croissance du 
produit de 2 grandeurs, il arrive aussi que Ton ait besoin de connaTtre le taux de 
croissance du rapport de deux grandeurs. C'est le cas par exemple de la productivity 
apparente du travail, dont la definition est: 


Productivity = — 

L 

ou Y = production exprimee en euros et L = nombre d'heures travaillees. Dans ce 
cas, si la production varie et que le nombre d'heures de travail varie aussi, on peut 
calculer le taux de croissance du rapport des deux, c'est-a-dire le taux de croissance 
de la productivity apparente du travail. 

Soient la production Y t et le travail L t . Leur evolution par rapport a la periode 
precedente peut s'exprimer ainsi: 


Y t = (l+gvJYt-i 


Lt - (i+gOLt-i 


ou g Y et g L sont les taux de croissance respectivement de la production et du travail 
entre t -1 et t. 

Partant de ces deux expressions, la productivity a la date t s'ecrit alors : 

Y f _ >l + 0y ' 4-1 

4 U + &'4-i 

On en deduit son taux de croissance entre t-1 et t: 


9 produc 


K 

_4 

K-, 


l = 


1 1 + g v i 

^ y _ 

(i + g L i 


Exemple : La production augmente de 10% et le nombre d'heures travaillees 
augmente de 4%. Quelle est I'augmentation de la productivity ? 


9 produc 


'1 + g,' 1+0,1 t 

(1 + g L i 1 + 0,04 


^=^-1 =1,057-1 =0,0576923 
1,04 


La productivity a augmente de 5,769%. 
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F - Complements 

1) Augmentations (diminutions) successives 


Lorsque qu'une grandeur croTt successivement a des taux differents a chaque 
periode et que Ton veut connaTtre la valeur de la grandeur au terme des 
augmentations ou diminutions successives on applique la formule suivante : 

K - K, fj 1 1 + a. 

Exemple : Soit V 0 =10 etgi=10%, g2=12%, g 3 =-5%. Determiner V 3 . 

On a : 


14 = l/ 0 11 + g x ) 11 + g 2 111 + g 3 1 


Done : 

V 3 -H.1 + 0nl + ft nl + ft 1 = 1011+0,1111 + 0,12111-0,051 = 10x1,1x1,12x0,95 = 11,704 

2) Augmentation en pourcentage suivie d'une diminution identique (ou 
diminution suivie d'une augmentation) 

Lorsque Ton applique a une grandeur une augmentation d'un certain pourcentage, 
par exemple 10%, et qu'ensuite on applique au resultat un pourcentage identique de 
diminution, par exemple 10%, on ne retrouve pas le chiffre de depart. 

Exemple : si Ton part de V 0 =10 et que Ton applique une augmentation de 10%, on 
obtient Vi- 11. Si Ton applique une diminution de 10% a Vi, on obtient V2=11 x (1- 
0,1)=11 x 0,9 = 9,9, parce que 10% de 11 = 1,1 alors que 10% de 10 -1. On ajoute 
done 1 a 10, puis on retranche 1,1 a 11. On se retrouve done avec 9,9. 

De meme, si on applique a une grandeur une diminution d'un certain pourcentage, 
par exemple 10%, et qu'ensuite on applique au resultat un pourcentage identique 
d'augmentation, par exemple 10%, on ne retrouve pas le chiffre de depart. 

Exemple : si Ton part de Vo=10 et que Ton applique une diminution de 10%, on 
obtient V 1 = 9. Si Ton applique une augmentation de 10% a Vi, on obtient 
V2=9(1+0,1)=9x 1,1 = 9,9. 
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3) Temps de doublement d'une grandeur 

Le temps de doublement d'une grandeur qui croTt a un taux moyen constant se 
calcule en appliquant la formule : 


2 l/ 0 =l/ ol l + <?, f 

Exemple : En combien de temps un capital place a 5% I'an double-t-il ? 
On a la formule : 


2l/ 0 =K 11+0,05 / o 2 = l,05 f o In 2 - t Ini,05 &t= = °' 6931472 .14 206 

00 Ini,05 0,0487902 

11 faut done 14 ans plus 0,2 x 12 mois = 2,4 mois pour qu'un capital place a 5% I'an 
double. C'est-a-dire 14 ans, 2 mois et 0,4 x 30 jours = 12 jours. Soit 14 ans, 2 mois et 

12 jours. 

3 - Resume 

Les indices et les taux de croissance permettent d’etudier revolution d’une ou 
plusieurs grandeurs dans le temps. Ms sont aussi utilises pour comparer des 
situations (generalement deux series dont les valeurs changent selon le lieu). 

Un nombre indice est une mesure de la variation d’une grandeur comparee a une 
valeur de reference appelee « base ». 

Un indice elementaire est un indice qui renseigne sur revolution temporelle ou 
situationnelle (spatiale) d’une seule valeur. 

Un indice synthetique est un indice qui resume 1’evolution de plusieurs grandeurs : 
plusieurs prix, plusieurs quantites, plusieurs valeurs (prix x quantites), etc. 

L’indice de LASPEYRES devolution des prix mesure 1’evolution, entre deux dates 
0 et t, des prix des biens qui composent un panier, en prenant comme reference la 
valeur du panier a la date initiale (t = 0) et en supposant que les quantites de biens 
dans le panier n’ont pas varie entre 0 et t. 

L’indice de LASPEYRES devolution des quantites mesure 1’evolution, entre deux 
dates 0 et t, des quantites des biens qui composent un panier, en prenant comme 
reference la valeur du panier a la date initiale (t=0) et en supposant que les prix des 
biens dans le panier n’ont pas varie entre 0 et t. 

L’un des indices synthetiques les plus connus et les plus utilises est I’indice des 
prix a la consommation (IPC) publie chaque mois par I’lNSEE. L'lPC permet de 
mesurer I'inflation, e’est-a-dire la variation du niveau general des prix des biens et 
des services consommes par les menages sur le territoire frangais entre deux 
periodes donnees. C'est une mesure synthetique des evolutions de prix a qualite 
constante. 
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Le taux de croissance sur une periode de la valeur V entre t = 0 (date du debut de 
la periode) et t =1 (date de fin de la periode) s'ecrit: 


Le taux gi s'exprime frequemment en pourcentages. Dans ce cas on le multiplie par 
100 . 

La formule du taux de croissance moyen sur plusieurs periodes est donnee par 
I'expression : 


9 = 



-1 


oli g = taux de croissance moyen, V 0 = grandeur a la date 0, V t = grandeur a la date 
t et le t qui figure dans I'exposant 1/t est le nombre de periodes sur lequel le taux 
moyen est calcule. 
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Annexe : Demonstration de la formule directe du taux de croissance moyen 

La formule du taux de croissance moyen sur plusieurs periodes est donnee par 
I'expression : 


9 - 


-1 


ou g = taux de croissance moyen, V 0 = grandeur a la date 0, V t = grandeur a la date 
t et le t qui figure dans I'exposant 1/t est le nombre de periodes sur lequel le taux 
moyen est calcule. Pour voir comment on obtient cette formule, on va supposer que 
le taux moyen g se substitue au taux de croissance de chaque periode g-i, g 2 , ..., gt 
dans la formule du taux de croissance sur une seule periode. Autrement dit, 
supposons que g= gi, g 2 , gt- Dans ce cas : 


g = gi = 


V -V 

V 1 V 0 

v n 


Pour la premiere periode. Cette expression peut s'ecrire : 

K = K) (l + ^) 


Pour la periode 2, on aura de meme : 


v 2 =K'i + <?' 


Ce qui peut s’ecrire : 

K -v^i + g.-v^i + g? 

Et ainsi de suite pour les autres periodes jusqu'a la periode t pour laquelle on aura : 

K-v 0 ii + gf 

Done, en reformulant cette expression : 

V t +g? = +g? g = 

K 

Le taux de croissance moyen g peut aussi s'ecrire: 

g = [(! + g t ) (1 + g tA ) ...il + g 2 j ii + g t j j -1 
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Le taux de croissance moyen g peut aussi s'ecrire sous forme d'une moyenne 
geometrique des taux de croissance de chaque periode gi, g 2 , g 3 , gt. En effet, 
on a : 


Or: 



-1 = 


K-i ^ 


14 K f 

-Lx-L 

K K 


-1 


K_ 

K-i 


= 1 


+ 9t 


K 

K Jl 


Done, en remplagant: 


1 

g = [l + g t nl+g t _g...il + g 2 "1 + gg] 7 -1 


-1 


Ilya done deux fagons equivalentes de calculer le taux de croissance moyen 
• La formule directe, en passant par I'accroissement global de V 0 a V t : 


9 = 


K 


14 


-1 


• La formule indirecte, en passant par les accroissements successifs de V 0 a 
Vi, de Vi a V 2 , jusqu'a V t : 


1 

g = [(1 + g t ) il + g tA )...(1 + g 2 ) (1 + g i j J -1 


Cette formule est celle de la moyenne geometrique simple d'une serie definie par 
les termes {(1 +gi), (1 +g 2 ), ( 1 + 93 ),., (1+gO}: 


1 

t "'t 

n'i+<7/i 

_/-i 
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Chapitre 5 

Diagrammes et graphiques 


0 - Introduction 

1 - Utilite des graphiques 

A - Qualites d’un bon qraohigue 
B - Quartet d’ANSCQMBE 

2 - Les echelles graphiques 

A - Echelles numeriques 
B - Echelles de categories 

1) categories numeriques 

2) categories nominales 
C - Echelles ordinales 

D - Echelles verticales doubles 
E - Echelles loqarithmiques 

1) Definition 

2) Calcul pratique du log decimal d’un nombre 

3) Rappels sur le log decimal 

4) Exemples 

a) L ’echelle log, pour rnieux vpirjes differences de progression 

b) L ’echelle lop linearise les evolutions a taux constant 


3 - Diagrammes 

A - Pictoqramme 
B - Cartoqramme 
C - Diaqramme de GANTT 

4 - Graphiques usuels 

A- Graphique en barres 

1) Barres verticales 

a) Simples 

b) Multiples 

c) Trongonnees 

2) Barres horizontales 

a) Simples 

b) Multiples 

c) Tronponnees 
B - Courbes et aires 

1) Courbe simple 

2) Courbes multiples 

3) Aires delimitees par des courbes 

C - Graphique de dispersion ou nuaqe de points 

D - Secteurs 

1) Secteurs a 360 deqres 

2) Secteurs a 180 deqres 

3) Methode de construction 

a) 360 degres 
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b) 180 degres 
4) Anneaux 

a) Simples 

b) concentrigues 

5 - Autres qraphiques 

A - Graphiques en radar et toiles d’araiqnee 

1) Radar 

2) Toile d’araiqnee 
B - Graphique a bulles 

C - Graphiques boursiers 
D - Graphiques de TUKEY 

1) Les elements constitutifs du graphique original 

2) Exemple 

3) Le graphique de TUKEY simplifie 
E - Graphiques panaches 

1) Secteur complete par une barre tronconnee 

2) Graphique de PARETO 

a) De la loi de Pareto au ctraphigue de Pareto 
ib) Definition, construction, exerngje §1 interpretation 

c) Interpretation 
F - Histogram me 

1) amplitudes de classes identiques 

a) Histogramme d’effectifs 
ib) Histogramme de frequences 

2) Amplitudes de classes differentes 

a) Histogramme d’effectifs 

b) Histogramme de frequences 
G - Pyramide des ages 

H - Graphique en cascade 
I - Graphique a trois dimensions 

1) Graphique en 2D avec aiout de « profondeur » 

2) Graphique en barres avec 3 dimensions reelles 


6 - Resume 
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0 - Introduction 


Les diagrammes et les graphiques sont des representations visuelles simplifies, 
mais neanmoins rigoureuses, de chiffres, de concepts, de categories, d’images, etc. 
Bien que certains diagrammes represented aussi des chiffres (voir la section 3 de ce 
chapitre ). c’est principalement au graphique que cette fonction incombe. Plus 
precisement, en statistique descriptive, le graphique sert a representer visuellement 
des informations sur les dimensions (caracteres ou variables) d’une population 
d’unites statistiques. 

Le graphique statistique combine dans des proportions variees des points, des 
lignes, un systeme de coordonnees generalement cartesiennes, des chiffres, des 
symboles, des mots, des formes et des couleurs. 

L’idee de representer visuellement des nombres traduisant eux-memes des 
proprietes quantitatives ou qualitatives de populations statistiques (ou meme de 
collections d’objets materiels ou abstraits) et les relations eventuelles entre ces 
nombres et entre ces proprietes, est assez recede dans I’histoire de I’humanite. 
Ainsi, on ne trouve pas a proprement parler de graphiques statistiques dans les 
cavernes prehistoriques. Selon Edward TUFTE 13 , un des meilleurs specialistes 
contemporains des graphiques, c’est vers les annees 1750-1800 que I’idee de 
representer visuellement des donnees statistiques ou des series temporelles est 
apparue, done bien apres I’invention du trace des fonctions mathematiques dans un 
repere de coordonnees cartesiennes. C’est I’anglais William PLAYFAIR (1759-1823) 
qui fut I’un des pionniers de la representation graphique de donnees statistiques 
jusque-la proposees sous forme de tableaux. 

1 - Utilite des graphiques 

A - Qualites d’un bon graphique 

Nous sommes quotidiennement bombardes d’informations visuelles, que ce soit par 
I’intermediaire des journaux (gratuits ou pas), d’internet, des telephones portables, 
des panneaux publicitaires geants ou non, numeriques ou en papier. Or nous ne 
pouvons en absorber qu’une partie limitee. De plus, une partie de cette information 
est complexe et requiert un degre non negligeable d’attention et de concentration 
pour etre comprise et exploitee utilement. 

Les annonceurs et autres diffuseurs d’information sont conscients de ce defi et c’est 
pourquoi ils redoublent de creativite et d’imagination pour forcer notre attention et 
tenter de la captiver suffisamment longtemps pour qu’elle se transforme 
magiquement, a notre insu, en concentration, cela pour qu’au bout du compte nous 
retenions cette information et I’utilisions dans le sens qu’ils souhaitent (achat de 
produits, certes, mais aussi adoption de certains comportements dans le cas des 
politiques de sante publique ou de developpement durable, entres autres). 


13 TUFTE, Edward (2001), The Visual Display of Quantitative Information , Graphics Press. Voir le site 
internet de Edward TUFTE , page 13. 
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Pour ce faire, quand I’information doit prendre la forme de donnees chiffrees, ils font 
appel a des infographistes. En effet, I’utilisation des graphiques pour transmettre un 
message s’avere tres efficace. Mais le statisticien se doit de rappeler qu’il faut 
neanmoins respecter certaines regies et ne jamais laisser I’esthetique empieter sur 
I’exactitude, fut-ce au nom de I’efficacite du message. 

Selon Edward TUFTE, I’excellence en matiere de graphiques statistiques consiste a 
communiquer avec clarte, precision et efficacite des idees complexes. Ensuite, il 
enumere neuf caracteristiques d’un « excellent graphique ». 

Ainsi, un excellent graphique devrait-il avoir tout ou partie des qualites suivantes : 

• Montrer les donnees. 

• Attirer I’attention du lecteur ou de I’auditoire sur I’idee essentielle que le 
graphique vise a mettre en evidence plutot que sur les qualites esthetiques du 
graphique lui-meme. 

• Eviter de deformer le message contenu dans les chiffres 

• Presenter un grand nombre de chiffres dans un espace restreint 

• Donner de la coherence a de vastes ensembles de donnees 

• Faciliter les comparaisons visuelles entre differents chiffres 

• Reveler les chiffres a differents niveaux de details, allant de la vision 
d’ensemble a une structure plus fine. 

• Servir un objectif clair: decrire des donnees, explorer des donnees, ou 
simplement les tabuler ou leur donner un aspect esthetique. 

• Etre etroitement correle avec la description purement statistique ou verbale 
des donnees. 

B - Quartet d’ANSCOMBE 

Les graphiques revelent des informations sur la forme des series que les 

tableaux et les statistiques resumees ne peuvent pas toujours montrer. La meilleure 
illustration en est le quartet d’ANSCOMBE, nomme ainsi apres la publication d’un 
article sur ce theme par le statisticien anglais Francis ANSCOMBE (1918-2001 ) 14 . 

Dans le tableau ci-apres les quatre 4 paires de series differentes de 11 chiffres ont 
toutes les memes statistiques resumees. La moyenne des X est egale a 9 et leur 
ecart-type est 1,94 pour les 4 series. La moyenne des Y est egale 7,5 et leur ecart- 
type a 1,94 pour les 4 series. Sans les quatre graphiques ci-apres, on pourrait 
deduire de fagon erronee que comme les 4 paires de series ont la meme moyenne et 
la meme dispersion (en outre, elles ont le meme coefficient de correlation et la meme 
droite de regression Y = 3 + 0,5 X feur le calcul de la droite de regression voir le 
chaoitre 61 ). elles sont tres semblables. Or, comme le montrent les 4 graphiques dits 
« en nuages de points » qui leurs sont associees, elles ont des formes tres 
differentes. Et ceci confirme I’adage qui dit que « un beau graphique vaut mieux 
qu’un long discours » ! 


14 F.J. ANSCOMBE, « Graphs in Statistical Analysis, » American Statistician, 27 fevrier 1973, pages 
17-21. 
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Quartet d’ANSCOM BE 


Chiffres du 

graphique 1 

Chiffres du 

graphique II 

Chiffres du f 

rraphique III 

Chiffres du | 

rraphique IV 

X 

Y 

X 

Y 

X 

Y 

X 

Y 

10 

0,04 

10 

9,14 

10 

7,46 

0 

6,50 

S 

6,95 

0 

0,14 

0 

6,77 

0 

5,76 

13 

7,50 

13 

0,74 

13 

12,74 

0 

7,71 

9 

0,01 

9 

0,77 

9 

7,11 

0 

0,04 

11 

0,33 

11 

9,26 

11 

7,01 

0 

0,47 

14 

9,96 

14 

0.1 

14 

0,04 

0 

7,04 

6 

7,24 

6 

6,13 

6 

6,00 

0 

5,25 

4 

4,26 

4 

3.1 

4 

5,39 

19 

12,5 

12 

10,04 

12 

9,13 

12 

0,15 

0 

5,56 

7 

4,02 

7 

7,26 

7 

6,42 

0 

7,91 

5 

5,60 

5 

4,74 

5 

5,73 

0 

6,09 



Moyenne simple 9 

7 S 5 

Moyenne simple 9 

7.5 

Moyenne simple 9 

7,5 

Moyenne simple 9 

7,5 

Ec art-type 3,16 

1,94 

Ec art-type 3,16 

1,94 

Ec art-type 3,16 

1,94 

Ec art-type 3,16 

1,94 

15 1 

Axe des Y 


Axe des Y 


Axe des Y 


Axe des Y 




12 - 



♦ 




12 - 




12 ■ 


12 - 


♦ 


♦ 









4 

9 - 

♦ ♦ ♦ 






9 - 



♦ ♦ 







♦ 

♦ ♦ 

♦ ♦ 


♦ ♦ 

♦ 

9 - 

♦ 

9 ■ 

: 

♦ 

* 


6 - 

♦ 

6 - 

♦ 

6 - 


6 ■ 

s 

* 



♦ 


♦ 




1 



♦ 








3 - 


3 - 

♦ 

3 - 


3 - 




Axe des X 


Axe des X 


Axe des X 


Axe des X 

0 - 


—i- 1 rv 







0 5 10 

U H 

15 20 i 

-1-1-1-1 u H 

3 5 10 15 20 | 

-1-1-1-1 u 1 

0 5 10 13 20 1 

} 5 10 

-1-1 

15 20 

Graphique 1 


Graphique 2 


Graphique 3 


Graphique 4 


Source des chiffres : F.J. ANSCOMBE, « Graphs in Statistical Analysis, » American Statistician, 27 fevrier 1973, pages 17-21. 
































































































2 - Les echelles graphiques 

Beaucoup de graphiques a deux dimensions se presentent sous la forme suivante 
dite d’un « systeme de coordonnees cartesiennes » : 

+ 

Echelle de 
I'axe vertical 



Echelle de I'axe horizontal 


Ce qui nous interesse dans un premier temps ce sont les differentes sortes 
d’echelles propres a ce type de representations graphiques. 

A - Echelles numeriques 

Une echelle numerique est une echelle qui mesure des valeurs qui peuvent varier 
de moins I’infini a plus I’infini. Ci-apres, un graphique avec une echelle numerique sur 
I’axe horizontal et une echelle numerique sur I’axe vertical. 

• Sur I’axe horizontal, I’unite de mesure numerique est I’annee. Les valeurs 
s’echelonnent entre 1995 et 2008. Si Ton doit dessiner ce graphique a la main 
sur une feuille de papier, on prendra soin de definir la distance que Ton 
souhaite consacrer a une annee (par exemple : 1 an = 1 cm). Si c’est un 
logiciel qui realise le graphique, cette operation devient inutile car les 
dimensions du graphique seront choisies par defaut (il est possible cependant 
de les modifier a son gre en redimensionnant le graphique 15 ). 


15 Dans EXCEL, il faut utiliser la poignee de redimensionnement tout en maintenant enfonce la 
touche « Maj », afin de garantir la proportionnalite de la transformation. 







• Sur I’axe vertical, I’unite de mesure numerique est le deficit commercial d’un 
pays, mesure en millions de dollars. II varie de -150 millions a + 400 millions. 
Si Ton doit dessiner ce graphique a la main sur une feuille de papier, on 
prendra soin de definir la distance que Ton souhaite consacrer a 100 millions 
de dollars (par exemple : 100 millions de dollars = 1 cm). Si c’est un logiciel 
qui realise le graphique, cette operation devient inutile car les dimensions du 
graphique seront choisies par defaut. 

Un exemple d’echelles numeriques sur les deux axes 



~r~ 

Unite de Tec he lie horizontal^ : le temps, mesure en annees 


i 


II est important de toujours bien stipuler sur chaque axe I’unite dans laquelle I’echelle 
de I’axe consideree est mesuree (ici I’unite est I’annee pour I’axe horizontal et les 
millions de dollars pour I’axe horizontal). En revanche, on peut se dispenser 
d’indiquer la relation entre la dimension de I’echelle (en centimetres) et la dimension 
de la variable mesuree sur I’echelle (millions de dollars, temps, etc.). 

B - Echelles de categories 

Une echelle de categories est une echelle sur laquelle sont portees des categories. 

II peut s’agir: 

• De categories numeriques (echelle quantitative) 

• De categories non numeriques dites « nominales » (echelle qualitative) 
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1) Categories numeriques 

Ci-apres un graphique ou Ton a regroupe les chomeurs d’une ville par classes 
d’ages : 


• Sur I’axe horizontal figurent les categories d’ages. C’est une echelle de 
categories ou categorielle. L’unite est I’age. On remarque aussi que les 
classes d’age ont la meme amplitude c’est-a-dire que toutes les categories 
d’ages ont le meme nombre d’annees. II existe aussi des echelles de 
categories d’amplitude differentes. 

• Sur I’axe vertical figurent I’effectif des chomeurs qui entrent dans 
chaque categorie. C’est une echelle numerique simple. L’unite est le nombre 
des chomeurs. 


Exemple d’utilisation d’une echelle 
avec categories numeriques sur I’axe horizontal 


Unitede I'echelle 
verticals: 

Effectifs des chomeurs 


nom bride 
chpmeurs 
1 4QQ 


1 200 


1000 
E00 
600 
400 
200 


Chfirneursdanf (a vill* XKX 
par «ti£oriBid P SfW 


lSa24ans 2Sa34ans ^5a 44ans 4E«S4arvs SS a 64 ans 


Cat eiaries d'ke [dccennles] 



Unitede I'echelle horizontale: chaque 
categorie represente une decennie 


2) Categories nominates 

Ci-apres un graphique ou Ton a regroupe les 35 pays du tableau 1 selon la monnaie 
utilisee. On a cree trois categories : 

• La categorie des pays qui font partie de la zone Euro au premier janvier 2009 

• La categorie des pays de I’UE 27 qui n’en font pas partie et utilisent de ce fait 
d’autres monnaies 

• La categorie des pays hors UE qui sont represents dans le tableau 1 . 
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L’echelle de I’axe vertical est done une echelle nominale. On a place I’echelle 
nominale sur I’axe vertical car ainsi il est plus commode d’ecrire ce que signifie 
chaque barre. L’echelle de I’axe horizontal, quant-a-elle, est numerique, elle 
mesure le nombre de pays appartenant a chaque categorie. 


Exemple d’utilisation d’une echelle avec categories nominates sur I’axe vertical 


L J &che(le verticale est 
nominale 


L'^lifcllfc horizontal*? est rtum^rique, Les 
chiffresrepr^sertlenl lencumhrede pays 


r 


i 


Nombri dftpiys 


1 


EurO 


Autres mamnaiesd^ I'UE j 27 


Au mgnnaie? hgi* LIE 2 7 


Q i i 4 ( ifr H 14 14 



16 




11 


8 




C - Echelles ordinales 

Une echelle ordinate est une echelle sur laquelle un ordonnancement des modalites 
est concevable. II peut s’agir: 

• D’un classement de preferences. C’est sou vent le cas dans les enquetes et 
les sondages d’opinion. 

• D’un classement de rang. On peut par exemple demander a des 
investisseurs de classer une liste de pays du plus attractif au moins attractif. 
Ce classement ne doit pas etre confondu avec une echelle numerique simple. 
En effet, bien qu’il s’agisse de chiffres, I’ecart entre les chiffres n’a pas de 
signification. 

Le tableau et le graphique ci-apres reproduisent des donnees fournies par le rapport 
de la Banque mondiale intitule « Doing Business 2009 Report » 16 ). La Banque 
mondiale a classe 181 pays. Les pays sont classes en fonction de la facilite d'y faire 
des affaires, de 1 a 181, la premiere place indique le plus haut niveau de facilite. Un 
classement eleve sur I'indice de facilite de faire des affaires signale un 
environnement reglementaire propice aux operations commerciales. Le fait que le 
classement soit represente sous forme numerique ne doit pas laisser penser 
cependant qu’il s’agit d’une echelle numerique. En effet, ces chiffres ne represented 
que des rangs. 


16 Voir http://www.doinqbusiness.org/economvrankinqs/ (Le classement qui figure dans cette version 
du cours a ete releve le 08/10/2008 et peut done etre different de celui qui figure sur le site internet 
donne en reference). 
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Classement des pays selon la facilite pour y fairs des affaires 


Pays 

Rang 

Pays 

Rang 

Pays 

Rang 

Pays 

Rang 

Singapour 

i 

Mamibie 

51 

Jordanie 

101 

Gabon 

151 

Nouvelle Zelande 

2 

Kowei't 

52 

Sri Lanka 

102 

Irak 

152 

Etats-Unis 

3 

Colombie 

53 

Moldavie 

103 

Djibouti 

153 

Hong-Kong, 

4 

Slovenie 

54 

Seychelles 

104 

Haiti 

154 

Chine 

Bahamas 

55 

Guyane 

105 

Comores 

155 

Danemark 


5 

Mexique 

56 

Croatia 

106 

Sierra Leone 

156 

Royaume uni 


6 

Oman 

57 

Nicaragua 

107 

Liberia 

157 

Irlande 


7 

Mongolie 

58 

Swaziland 

103 

Zimbabwe 

153 

Canada 

S 

Turquie 

59 

Uruguay 

109 

Tadjikistan 

159 

Austral ie 


9 

Vanuatu 

60 

Bangladesh 

110 

Mauritanie 

160 

Norvege 

10 

Taiwan, Chine 

61 

Ouganda 

111 

Cote d'Ivoire 

161 

Islands 

11 

Perou 

62 

Guatemala 

112 

Afghanistan 

162 

Japon 

12 

Jamai'que 

63 

Argentine 

113 

Togo 

163 

Tha'ilande 

13 

Samoa 

64 

Egypte 

114 

Cameroun 

164 

Finlande 

14 

Italie 

65 

Paraguay 

115 

RDP du Laos 

165 

Georgie 

15 

St. Vincent & 

66 

Ethiopia 

116 

Mali 

166 

Arabie Saoudite 

16 

Grenadines 

Costa Rica 

117 

Guinee 

167 

Suede 

17 

St. Kitts-et-Nevis 

67 


Nigeria 

118 

Equatoriale 

Bahrein 

18 

Kirghizistan 

63 




Bosnie- 

119 

Angola 

163 

Belgique 

19 

Maldives 

69 

Herzegovine 

Benin 

169 

Malaisie 

20 

Kazakhstan 

70 

Federation de 

120 

Timor Oriental 

170 

Suisse 

21 

Macedoine 

71 

Russia 

Guinee 

171 

Estonie 

22 

Salvador 

72 

Nepal 

121 

Niger 

172 

Cores 

23 

Tunisia 

73 

Inde 

122 

Erythree 

173 

Maurice 

24 

Dominique 

74 

Lesotho 

123 

Venezuela 

174 

Allemagne 

25 

Republique 

75 

Bhoutan 

124 

Tchad 

175 

Pays-Bas 

26 

Tcheque 

Bresil 

125 

Sao Tome & 

176 

Autriche 

27 

Pologne 

76 

EF de Micronesia 

126 

Principe 

Lituanie 

28 

Pakistan 

77 

Tanzania 

127 

Burundi 

177 

Lettonie 

29 

Belize 

73 

Maroc 

123 

Congo, 

173 

Israel 

30 

Kiribati 

79 

Indonesie 

129 

Republique du 

France 

31 

Trinite-et-Tobago 

30 

Gambie 

130 

Guinee-Bissau 

179 




Republique 

Centrafricaine 


Afrique du Sud 

32 

Panama 

81 

Cisjordanie et 

131 

130 

Azerbaijan 

33 

Kenya 

32 

Gaza 




132 

Congo, 

Republique 


Ste. Lucie 

34 

Chine 

33 

Algerie 

131 


133 

Porto Rico 

35 

Grenade 

34 

Honduras 

Democratique du 






Slovaquie 

36 

Belarus 

35 

mdldWI 

i 

Cambodge 

135 

Qatar 

37 

Albanie 

36 

Equateur 

136 

Botswana 

33 

Ghana 

37 

Republique Arabe 
Syrienne 


Fiji 

39 

Le Brunei 

83 

137 

Chili 

40 

lies Salomon 

39 

Ouzbekistan 

133 




90 

Hongrie 

41 

Montenegro 

Rwanda 

139 



91 

Antigua-et- 

Barbuda 

42 

Palau 

Philippines 

140 

Vietnam 

92 


Mozambique 

141 

Tonga 

43 

lies Marshall 

93 

Iran 

142 

Armenie 

44 

Serbie 

94 

Cap-Vert 

143 

Bulgarie 

45 

Papouasie- 


95 

Madagascar 

144 

Em i rats Arabes 


Nouvelle Guinee 

46 


Ukraine 

145 

Unis 

Grece 

96 

Roumanie 

47 

Republique 

97 

Surinam 

146 

Portugal 

43 

Dominicaine 

Soudan 

147 

Espagne 

49 

Yemen 

93 

Burkina Faso 

143 

Luxembourg 

50 

Liban 

99 

Senegal 

149 


Zambie 

100 

Bolivie 

150 


Source : http://www.doinqbusiness.org/economvrankinqs/ (Classement releve le 8 octobre 
2008 ) 
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Exemple d’echelles ordinales sur I’axe vertical et sur I’axe horizontal 
(Classement des 20 premiers pays du monde ou il est facile de « faire des affaires ») 


OJ 

rc 


Tj 

O 

0J 

~oj 


LJ 


LU 



Echelle ordinale 


Source : http://www.doinqbusiness.org/economvrankinqs/ (classement releve le 8 octobre 
2008 ) 


L’echelle horizontale du graphique ci-dessus n’est qu’apparemment numerique. En 
fait elle donne le classement du pays. II s’agit done bien d’une echelle ordinale car 
I’ecart qui separe les pays n’est pas quantifiable. Par exemple, Singapour est 
classee au premier rang et la Malaisie est classee au 20 eme rang. Si Ton fait la 
difference 20-1 = 19, on ne peut pas en conclure que Singapour est 19 fois plus 
attractif que la Malaisie du point de vue des investissements internationaux. II ne 
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s’agit pas d’une echelle reellement numerique, mais d’une echelle speciale, qualifiee 
pour cette raison d’« echelle ordinale ». 

L’echelle verticale du graphique ci-dessus est egalement ordinale : les pays y sont 
classes par ordre decroissant, du moins attractif au plus attractif. 

D - Echelles verticales doubles 

Lorsque que Ton veut representer les donnees relatives a deux variables ou a deux 
caracteres, on a recours a une echelle verticale double pourfaciliter la lecture. 

L’exemple suivant va permettre d’illustrer ce point. Le tableau ci-dessous montre 
deux series mensuelles. La premiere indique le temps passe par une personne sur 
Internet chaque mois (en heures) et la seconde serie indique le total de la somme 
depensee sur differents sites marchands 17 . 

Temps passe sur Internet (heures/mois) 
et sommes depensees sur differents sites marchands (euros) 


Mois 

Temps 

passe 

sur Internet 
(heures) 

Sommes 
depensees 
sur E-bay, 
Amazon, 
Fnac.com, etc. 

janv-08 

4,20 

142,25 € 

fevr-08 

3,50 

73.59 € 

mars -03 

1.00 

12,50 € 

avr-08 

5,60 

56,42 € 

mai-03 

5.00 

98.74 € 

juin-08 

7,30 

319.12 € 

juil-08 

3.40 

232.58 € 

a out-08 

3,10 

175.91 € 

sept-08 

4,50 

79.50 € 

oct-08 

2,50 

0.00 € 

nov-08 

2.00 

0.00 € 

dec-08 

2,50 

19.93 € 

janv-09 

2,20 

48.12 € 


Source : Matthew MCDONALD, « Creating a Combination Chart in EXCEL 2007 », Matthew 
McDONALD, video Youtube : http://fr.youtube.com/watch?v=WW2IDE4rPCc 


17 Exemple inspire de « Creating a Combination Chart in EXCEL 2007 », par Matthew McDONALD, 
video Youtube : http://fr.youtube.com/watch?v=WW2IDE4rPCc 
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Exemple de I’utilite des echelles verticales doubles 
























































Imaginons que Ton souhaite savoir s’il existe une covariation entre ces deux series. 
Une bonne fagon de proceder est de les mettre sous forme d’un graphique. 
Cependant, comme les deux echelles sont differentes, il faut reserver par exemple 
I’echelle verticale de gauche pour le temps passe sur internet (qui est exprime en 
heures) et I’echelle verticale de droite pour les sommes depensees (qui sont 
exprimees en euros). En effet, si Ton utilise seulement I’echelle verticale de gauche 
pour tracer les deux series, la plus petite (celle des heures passees sur internet) sera 
ecrasee par la plus grande (celle des euros depenses) et le graphique ne revelera 
rien du tout. Inversement, si Ton reserve une echelle pour chaque serie, on obtient 
alors un graphique beaucoup plus lisible qui semble bel et bien reveler que plus cet 
individu a passe de temps sur Internet et plus il a depense d’argent (ceci n’est qu’un 
constat de covariation et non une relation de causalite, bien sur). 

E - Echelles logarithmiques 

1) Definition 

L’echelle logarithmique est une echelle qui mesure le logarithme decimal des 
valeurs de la variable. C'est un excellent moyen de mettre en evidence une idee ou 
un resultat grace aux proprietes des logarithmes decimaux. 

Avant de presenter le mode de construction d'un graphique a echelle semi- 
logarithmique, il convient cependant defaire un rappel sur les logarithmes decimaux. 

A ce sujet, sur un plan pratique, il est plus important de savoir obtenir un logarithme 
decimal avec une machine a calculer, que de c omprendre le pourquoi et le comment 
des logarithmes decimaux, ce qui est certainement passionnant mais releve d'un 
cours de mathematiques. 

Nous allons done commencer par voir comment on calcule un logarithme decimal 
avec une machine a calculer standard (ci-apres la "SC-05 Plus") avant de faire un 
bref rappel sur les logarithmes decimaux. 

2 ) Calcul pratique du log decimal d'un nombre 

II suffit d'appuyer sur la touche "log" d'une machine a calculer pour obtenir le log d'un 
nombre. Par exemple, I'image ci-dessous illustre le calcul du log decimal de 1000. 
L'ecran indique que le log decimal de 1000 est egal a 3. Pour obtenir ce resultat, on 
procede ainsi : 

1 - Allumer la machine 

2 - appuyer sur la touche "log" entouree en rouge (attention de ne pas appuyer sur 
la touche "In" qui est entouree en bleu juste a cote et qui sert a calculer les 
logarithmes naturels) 

3 - Entrer le chiffre 1000 

4 - Appuyer sur la touche "=" 

5 - Le resultat (ici le log de 1000 c'est 3) apparaTt sur l'ecran de la calculatrice. 




3) Rappels sur le logarithme decimal 

Le logarithme decimal d'un nombre est la puissance a laquelle il faut elever 10 pour 
obtenir ce nombre. Appliquons cette definition a quelques nombres. Quel est, par 
exemple, le logarithme decimal de 1 ? Autrement dit, a quelle puissance faut-il 
elever 10 pour obtenir 1 ? 

La puissance a laquelle il faut elever 10 pour obtenir 1 est 0. Par consequent, le 
logarithme decimal de 1 est egal a zero: 


10°=1 


On ecrira done : 


log 1 = 0 

Quel est le logarithme decimal de 100 ? C'est la puissance a laquelle il faut elever 10 
pour obtenir 100 : 

10 2 =100, parce qu'il faut elever 10 a la puissance 2 pour obtenir 100. Done le 
logarithme decimal de 100 est egal a 2. On ecrira par consequent: 

log 100 =2 

Inversement, si Ton demande "De quel chiffre 3 est-il le logarithme decimal ?", on 
fera le raisonnement inverse. Sachant que 10 3 =1000, la reponse est done : 

log 3 = 1000 

Autrement dit, le logarithme decimal de 1000 est egal a 3. 
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4) Exemples 

a) L’echelle logarithmique permet de mieux voir les differences de progression 

On decide de comparer le nombre de contrats conclus par deux vendeurs en 2007 et 
2008 : 



2007 

2008 

Progression 

Vendeur1 

300 

600 

multiplie par 2 

Vendeur 2 

100 

400 

multiplie par 4 


Le tableau montre que le nombre de contrats conclus par le vendeur 1 a ete multiplie 
par 2 et que le nombre de contrats conclus par le vendeur 2 a ete multiplie par 4. 

Sur un graphique ordinaire (a gauche ci-dessous), les deux progressions sont 
paralleles. En revanche, sur un graphique avec une ordonnee logarithmique, on voit 
clairement que la progression du vendeur 2 est plus rapide que celle du vendeur 1. 



Contrats 

conclus 


2007 2008 


2007 2008 


Sur le graphique de droite, I'echelle de I'ordonnee est logarithmique, mais les chiffres 
indiques (les nombres de contrats) sont les memes que sur le graphique de gauche. 
Cependant, au lieu d'utiliser les valeurs elles-memes, le trace utilise le logarithme 
decimal des valeurs, comme indique dans le tableau ci-dessous : 



2007 

2008 

Vendeur1 

log(300)=2,48 

log(600)=2,78 

Vendeur 2 

log(100)=2 

log(400)=2,6 
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b) L’echelle log linearise les evolutions a taux constant 

On souhaite faire un graphique indiquant revolution du chiffre d'affaires d'une 
entreprise dont la croissance est tres rapide : 


Annees 

CA (en euros) 

2004 

100 

2005 

1000 

2006 

10000 

2007 

100000 

2008 

1000000 


Comme on peut le voir sur le graphique ci-apres les valeurs pour 2004, 2005 et 2006 
sont ecrasees par rapport a celles de 2007 et 2008 : 

Graphique avec echelle des ordonnees ordinaires (sans transformation 

logarithmique) 



Fichier EXCEL 
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Appliquons une transformation logarithmique aux valeurs de I'ordonnee : 


Annees 

CA (en euros) 


2004 

100 

log(100)=2 

2005 

1000 

log(1000)=3 

2006 

10000 

log(10000)=4 

2007 

100000 

log(100000)=5 

2008 

1000000 

log(1000000)=6 


On obtient alors le graphique suivant ou la progression devient lineaire : 

Graphique « semi logarithmique» (I'echelle des abscisses est logarithmique) 



2004 2005 2006 2007 2008 

Fichier EXCEL 


5- Echelle doublement logarithmique 

il existe aussi des graphiques avec echelle logarithmique sur les deux axes. 
Autrement dit, non seulement I'echelle des ordonnees est logarithmique, mais 
egalement I'echelle des abscisses. C'est assez peu frequent en economie. L'exemple 
donne ci-apres est celui de la relation entre le temps de generation (periode allant de 
la naissance a I'age moyen de reproduction) et la longueur de divers etres vivants. 
On voit nettement sur ce graphique que le temps de generation croft avec la 
longueur. Mais on a ici un cas tres interessant ou I'echelle de temps varie entre 
moins d'une heure et 100 ans et ou I'echelle de longueur varie de I'infiniment petit a 
100 m. Pour bien contraster ce graphique avec le graphique semi-logarithmique 
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etudie precedemment, on parle de graphique a echelle doublement 
logarithmique. 

Exemple d'un graphique a echelle doublement logarithmique 


I DOM 
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Source : John Tyler BONNER, Size and Cycle: An Essay on the Structure of Biology (Princeton, 
1965), p.17. Reproduit dans Edward R. TUFTE, The Visual Display of Quantitative Information 
(Graphics Press LLC, 2004), p. 94 
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3 - Diagrammes 


Un diagramme est une representation visuelle simplifiee et structuree de concepts, 
d’idees, de constructions, des relations, de I'anatomie et aussi parfois (et c’est en 
cela qu’il nous interesse ici) de donnees statistiques. II est employe dans tous les 
aspects des activites humaines pour visualiser et clarifier. Un diagramme permet 
aussi de decrire des phenomenes, de mettre en evidence des correlations en 
certains facteurs ou de representer des parties d’un ensemble. 

II existe done une relation entre diagramme et graphique, que nous pouvons 
d’ailleurs illustrer par le diagramme de VENN ci-apres (lequel est un diagramme 
non statistique !). 



Diagrammes 


Graphiques 


r Diagrammes 
Qui represented 

des idees, des Di ag ra mmes\ 
relations, etc. q U j represented t 

des donnees chiffrees 


R|p| 


a Ktt B 
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A - Pictogramme 

Le pictogramme est un dessin, generalement en couleur, congu de preference par 
un infographiste, qui essaie de traduire non seulement des donnees quantitatives, 
mais egalement des informations d’ordre commercial ou esthetique. Dans I’exemple 
suivant, quatre figurines represented des bouteilles d’eau : la « corpulence » de 
chaque bouteille correspond aux ventes de la marque fictive « eau de qualite ». En 
realite, il s’agit au depart d’un graphique en colonnes qui a ete redessine pour 
remplacer les colonnes par des bouteilles. Ce qui compte ici, c’est la hauteur de la 
bouteille. Plus la bouteille est haute, plus les ventes sont importantes. On voit aussi 
sur le graphique que la « corpulence » augmente avec la hauteur. II faudrait done, 
pour que le pictogramme reste conforme aux canons habituels (proportionnalite des 
surfaces aux grandeurs representees), que la surface des bouteilles soit 
proportionnelle aux chiffres qu’elles represented. Ce n’est pas le cas pour des 
raisons esthetiques et/ou de realisme visuel. II y a done un risque (certains diront 
« une opportunity ») a utiliser ce genre de graphique, risque qui est d’induire des 
impressions visuelles qui ne sont pas contenues dans la realite des chiffres. 

Remarquons qu’il s’agit d’un pictogramme qui traduit principalement une information 
statistique. Mais beaucoup de pictogrammes ne traduisent que des informations 
diverses, non statistiques. 

Un pictogramme qui represente des donnees chiffrees 


Ventes de bouteilles d’eau 
{en millions d'euros) * annee 2008 
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B - Cartogramme 


Le cartogramme sert a localiser geographiquement des valeurs ou des modalites 
relatives a une variable ou a un caractere decrivant les unites statistiques d’une 
population. Les cartogrammes sont desormais tres frequemment utilises pour 
representer toutes sortes d’informations, de la meteorologie, aux resultats 
electoraux, en passant naturellement par des informations economiques. 


Un cartogramme statistique : De la CEE a 6 a I’UE a 27 



Finlande 


Norvege 


Russie 


Lettonie 


Royaume- 

Uni 


Bieiorussie 


Pologne 


Belgique 


Allemagne 


Tchequie 


Luxembourg 


Slovaquie 
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France 


Hongrie 


Roumanie 
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Herz6go- Serbie 
vine 


Monaco 


Andorra 


Bulgarie 


Portugal 


Mace¬ 

doine 


Espagne 


Vatican 


Turquie 


Elargissements passes 


□ Fondation 1952. Allemagne de 
I'Ouest, Belgique. France. Italie. 
Luxembourg, Pays-Bas 

□ £largissement 1973. Danemark, 
Irlande, Royaume-Uni 

G ^largissement 1981 et 1986: 
Espagne, Grece, Portugal 

□ flargissement 1990 et 1995: 
Allemagne de I'Est, Autriche, 
Finlande, Suede 

□ £largissement 2004. 

Chypre, Estonie, Hongrie, Lettonie, 
Lituanie, Malte, Pologne, 

Slovaquie, Slov6nie, Tchequie 

G Elargissement 2007 
Bulgarie. Roumanie 


Maroc 


Source : http://upload.wikimedia.orq/wikipedia/commons/c/c4/European union past enlargements map fr.pnq 
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Le cartogramme ci-avant montre revolution de la construction europeenne par date 
d’adhesion. On a d’abord : 

En 1956 : les 6 pays fondateurs (France, Allemagne, Italie, Pays-Bas, Belgique et 
Luxembourg) 

En 1973 : Le premier elargissement avec le Royaume-Uni, Nrlande et le Danemark 

En 1981 : La Grece 

En 1986 : L’Espagne et le Portugal 

EN 1975 : L’Autriche, La Finlande et la Suede 

En 2004 : 8 pays de I’Est (Estonie, Lettonie, Lituanie, Republique Tcheque, 
Slovaquie, Pologne, Slovenie, Hongrie) plus Malte et Chypre 
En 2007 : La Bulgarie et la Roumanie 

C - Diagramme de GANTT 

Le diagramme de GANTT, du nom de I’ingenieur americain Henry Laurence 
GANTT (1861-1919) qui I’a popularise, est un outil de gestion de projets. II sert a 
visualiser dans le temps les differentes etapes qui composent un projet. II existe des 
logiciels specifiques qui permettent de produire ce diagramme, mais il est aussi 
possible d’utiliser EXCEL 2007 pour le tracer. 

Nous allons partir d’un exemple simple sous forme d’un tableau decrivant la duree 
des differentes etapes de la realisation d’un memoire et nous transformerons ce 
tableau en diagramme de Gantt. Ci-apres, le tableau qui va servir a faire le 
diagramme : 

Tableau chronologique des taches a effectuer pour realiser un memoire 


Liste des taches 

Date de debut 

Duree (jours) 

Date de fin 1 

Choix du Sujet 

1/1 

7 

8/1 

Documentation 

8/1 

10 

18/1 

Calculs, tableaux & graphiques 

18/1 

12 

30/1 

Plan 

30/1 

4 

3/2 

Redaction des parties 

3/2 

25 

28/2 

Intro et conclusion 

28/2 

6 

6/3 

Bibliographic 

6/3 

7 

13/3 

TDM, so mm a ire, index, etc. 

13/3 

5 

18/3 

Charte graphique 

18/3 

5 

23/3 

Page de garde 

23/3 

3 

26/3 

Preparation pour I'impression 

26/3 

2 

28/3 

Impression 

28/3 

4 

V* . 
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Sur ce tableau figurent successivement: 


• Dans la premiere colonne, I’enumeration des taches 

• Dans la seconde colonne la date de debut de chaque tache 

• Dans la troisieme colonne la duree de chaque etape en jours 

• Dans la derniere colonne, la date d’achevement de chaque tache 

Void maintenant le diagramme tel qu’il apparaTt une fois termine. 


Diagramme de GANTT pour la realisation d’un memoire 


1/1 21/1 10/2 2/3 22/3 11/4 


Choixdu sujet 
Documentation 
Calculs, tableaux & graphiques 

Plan 

Redaction des parties 
Intro et conclusion 
Bibliographie 
TDM, sommaire, index, etc. 
Chartegraphique 
Page de garde 
Preparation pourl'impression 
Impression 



Grace a ce diagramme, nous pouvons : 

• Visualiser la duree totale du projet 

• Apprecier la duree de chaque etape et eventuellement reaffecter le temps 
total entre les differentes taches 

• Verifier si les chevauchements sont realistes (ici - pour simplifier- il n’y a pas 
de chevauchement) 

• Ordonner les taches dans un ordre chronologique 

4 - Graphiques usuels 

A I’ere du numerique et des telecommunications, les graphiques sont partout. Ces 
representations visuelles colorees, aux formes tres diverses sont plus agreables a 
regarder que les tableaux et permettent souvent de mieux faire passer un message 
au premier coup d’ceil. 

II est egalement tres facile, grace aux logiciels tels que EXCEL 2007 de Microsoft de 
donner une « profondeur » aux differents graphiques, afin qu’ils apparaissent comme 
ayant trois dimensions (II est aussi possible dans EXCEL 2007, de representer 
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« reellement » trois dimensions pour certains graphiques en barres ou pour les 
graphiques dits « de surface »). 

II ne faut cependant pas abuser de la possibility qui nous est donnee aujourd’hui de 
realiser des graphiques complexes. Car cette complexity peut finir par rendre le 
graphique difficilement comprehensible. Mieux vaut s’en tenir aux principales 
representations graphiques connues et appreciees de tous : diagrammes en 
colonne, diagramme en barres, lignes, « camemberts », etc.... 

II existe une grande quantity de graphiques, tous plus imaginatifs les uns que les 
autres. Ainsi, a titre d’exemple, la figure ci-apres montre les 73 possibilites de 
graphiques simples, regroupees en 11 categories, qui peuvent etre realises avec le 
logiciel EXCEL 2007. Mais en realite, il est possible d’en faire beaucoup plus, soit en 
combinant ces formes de base, soit en utilisant certaines astuces. 

Les 73 representations graphiques de base dans EXCEL 2007, regroupees 
dans 11 categories communes 



De plus, grace a des logiciels tels que FLASH d’Adobe, il est possible de realiser des 
graphiques amines, ou des graphiques interactifs (pouvant par exemple etre modifies 
par I’utilisateur). 
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Les quatre formes graphiques les plus frequemment utilisees sont: 

• Barres verticales ou horizontales 

• Courbes ou aires delimitees par des courbes 

• Nuages de points 

• Secteurs ou « camemberts » 

A - Graphiques en barres 

On distingue les graphiques en barres verticales et les graphiques en barres 
horizontales. Mais pour chacune de ces deux categories, il existe 3 varietes : simple, 
multiples et trongonnee. S’agissant des barres « trongonnees », elles se subdivisent 
en barres d’effectifs ou en barres de pourcentages empiles a 100%. Le Tableau ci- 
apres donne une representation schematique de ces 8 varietes. 

Pour creer les 8 graphiques les donnees ci-dessous ont ete utilisees : 


Ventes 2008 (euros) 



Leila 

Ahmed 

Pierre 

Elodie 

Total 

Marseille 

13 225 478 

20 154 287 

17 892 555 

15 897 233 

67 169 553 

Paris 

37 895 214 

35 877 421 

32 553 741 

22 044 687 

128 376 063 

Lyon 

18 753 951 

3 754 668 

9 785 246 

16 437 564 

53 781 429 

Total 

69 874 643 

64 786 376 

60 236 542 

54 429 484 

249 327 045 


II s’agit du chiffre d’affaires hypothetique qu’une entreprise a realise en 2008 
249 327 045 euros) repartis par ses 4 vendeurs et dans les trois villes ou se trouvent 
ses clients. Les 8 graphiques ci-apres sont les 8 principales fagons de representer 
ces donnees (ou une partie d’entre elles). Chaque graphique en barres fait ressortir 
ces chiffres d’une maniere differente et pourra done etre prefere selon les 
circonstances dans lesquelles le graphique est utilise. 

1) Barres verticales 

La premiere ligne du tableau ci-apres intitule «les 8 principales varietes de 
graphiques en barres » represente les 4 principales fagons de disposer les donnees 
du tableau sous forme de barres verticales (ou colonnes). Comme I’axe horizontal 
represente des categories nominales, la largeur des colonnes n’a pas d’importance, 
pourvu qu’elle soit identique pour toutes les colonnes. Cette largeur peut varier d’un 
minimum qui serait un simple trait vertical jusqu’a un maximum qui serait represente 
par le fait que toutes les colonnes seraient « collees ». 

a) Simple 

Le type « barres verticales simples » est represente par le graphique numerate 1. II 
permet de mettre en evidence le chiffre d’affaire realise par chaque vendeur. On voit 
du premier coup d’ceil combien chaque vendeur a realise et quel est celui qui a 
realise le plus gros chiffre d’affaires. Les chiffres du graphique correspondent a la 
derniere ligne du tableau. 


106 















Les 8 principales varieties de graphiques en barres 
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b) Multiples 


Le type « barres verticales multiples » est represente par le graphique numerate 3. II 
permet de mettre en evidence le chiffre d’affaire realise par chaque vendeur dans 
chaque ville. Pour chacune des villes (Marseille, Paris, Lyon) on peut voir combien 
chaque vendeur a realise. Ce graphique permet de voir quel est le vendeur le plus 
performant dans chaque ville. 

c) trongonnees 

Le type « barres verticales trongonnee» est represente par les graphiques 
numerates 5 et 7. 

• Le graphique numerate 5 montre les valeurs absolues : il permet de voir 
d’une part quelle est la ville qui a produit le plus gros chiffre d’affaires. Mais il 
permet aussi de voir quelle est la contribution de chaque vendeur dans le 
chiffre d’affaires realise dans chaque ville. 

• Le graphique numerate 7 montre les pourcentages : il permet seulement 
de voir la contribution de chaque vendeur dans le CA de chaque ville. Et 
comme chaque barre verticale correspond a 100%, on peut comparer la 
performance de chaque vendeur dans chaque ville. On voit par exemple que 
la contribution de Leila (rouge) est plus forte a Lyon qu’a Marseille. 
Inversement, la contribution de Ahmed est plus forte a Marseille a qu’a Paris. 

2) Barres horizontales 

La deuxieme ligne du tableau ci-avant intitule « les 8 principales varietes de 
graphiques en barres » montre les 4 principales fagons de disposer les donnees du 
tableau sous forme de barres horizontales. Comme I’axe horizontal represente des 
categories nominales, la largeur des barres n’a pas d’importance, pourvu qu’elle soit 
identique pour toutes les barres. Cette largeur peut varier d’un minimum (un simple 
trait vertical) jusqu’a un maximum (toutes les colonnes sont « collees »). 

a) Simple 

Le type « barres horizontales simples » est represente par le graphique numerate 2. 
II est I’equivalent en barres horizontales du graphique numerate 1 

b) Multiples 

Le type « barres horizontales multiples » est represente par le graphique numerate 4. 
II est I’equivalent en barres horizontales du graphique numerate 3. 

c) trongonnees 

Le type « barres horizontales trongonnees» est represente par les graphiques 
numerates 6 et 8. II est I’equivalent en barres horizontales des graphiques numerates 
5 et 7. 



B - Courbes et aires 


La courbe est generalement le graphique le plus approprie pour montrer des 
evolutions dans le temps. Lorsque Ton veut montrer 1’evolution de plusieurs series 
dans le temps on utilisera egalement ce type de presentation. Parfois, on veut aussi 
montrer revolution de differentes composantes d’un ensemble dans le temps. Dans 
ce cas, on peut utiliser des aires delimitees par des courbes. Pour illustrer les 
differents usages possibles des courbes et des aires, soit le tableau suivant qui 
represente la repartition du chiffre d’affaires d’une entreprise sur les 3 villes ou se 
situent ses clients. 

Repartition du chiffre d’affaires de I’entreprise XXX par villes 

(Millions d’euros) 


Annees 

Marseille 

Paris 

Lyon 

Total 

2002 

67,2 

128 

53,7 

248,9 

2003 

50.8 

140,7 

40.2 

231,7 

2004 

78,4 

200.1 

30.6 

309,1 

2005 

80,7 

250,2 

90.1 

421 

2006 

101,4 

180,6 

100,1 

382,1 

2007 

202.8 

170,1 

70.2 

443,1 

2008 

305,1 

230,2 

60.6 

645,9 


Pour completer ce tableau, ajoutons le tableau en pourcentage suivant, qui donne, 
pour chaque annee, la contribution en pourcentage de chaque ville au chiffre 
d’affaires total. Ce second tableau s’obtient en divisant les 3 premiers chiffres de 
chaque ligne du tableau initial par le quatrieme chiffre de la ligne correspondante et 
en multipliant le resultat par 100 

Contribution en % de chaque ville 
au chiffre d’affaires total de chaque annee 


Annees 

Marseille 

Paris 

Lyon 

Total 

2002 

27.0 

51,4 

21,6 

100.0 

2003 

21,9 

60.7 

17,4 

100.0 

2004 

25,4 

64,7 

9.9 

100.0 

2005 

19,2 

59.4 

21,4 

100.0 

2006 

26,5 

47,3 

26.2 

100.0 

2007 

45.8 

38.4 

15,8 

100.0 

2008 

47,2 

43,4 

9.4 

100.0 


Le tableau de graphiques ci-apres illustre les 4 principales possibility d’exploiter les 
graphiques en ligne ou les aires delimitees par des lignes. 

1) Courbes simples 

Le graphique numerate 1 represente 1’evolution des ventes totales (ou chiffre 
d’affaires total) en millions d’euros de cette entreprise fictive. II permet de lire a la fois 
I’augmentation et les periodes ou revolution a marque le pas. II est parfaitement 
adapte pour illustrer 1’evolution globale du chiffre d’affaires de I’entreprise. 
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Quatre principales fagons d’utiliser les graphiques en courbes et aires 


i 


3 


Courbe simple 


Ventestotales 
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2) Coubes multiples 

Le graphique numerate 2 represente revolution des ventes totales (ou chiffre 
d’affaires total) en millions d’euros que cette entreprise realise pour chacune des 3 
villes ou se trouvent ses clients. II est interessant, mais en fait, on peut lui preferer un 
graphique qui allierait a la fois les avantages de la courbe simple (graphique 
numerate 1) et la decomposition par ville (graphique numerate 2). C’est ce que 
propose le graphique numerate 3. 

3) Aires delimitees par des courbes 

On peut concevoir deux fagons de presenter un graphique d’aires delimitees par des 
courbes : 

• Soit sous forme de valeurs absolues : le graphique numerate 3 represente 
ainsi a la fois revolution des ventes totales et la contribution de chaque ville a 
cette evolution. La contribution est representee par le decoupage en trois de 
la surface qui se trouve sous la courbe. La contribution de Marseille est en 
bleu, celle de Paris en rouge et celle de Lyon en vert. Les 3 contributions 
additionnees donnent revolution totale. 

• Soit sous forme de pourcentages : le graphique numerate 4 represente la 
contribution en pourcentage de chaque ville au chiffre total de I’entreprise. Ce 
graphique permet de voir par exemple que Paris etait preponderant en 2001 
mais que sa part (ainsi que celle de Lyon) a ete progressivement grignotee 
par Marseille. 

La methode de construction est simple : on part du tableau initial et I on 
additionne d’abord la colonne de Marseille et de Paris, puis les colonnes Marseille, 
Parie et Lyon. Ensuite, on trace les 3 courbes sur un meme graphique et on effectue 
un coloriage des 3 zones (voir schema ci-apres). Naturellement, si I’on dispose d’un 
tableur comme EXCEL 2007, le graphique est trace automatiquement uniquement en 
selectionnant les donnees du tableau initial en en choisissant le graphique adequat. 



Millions d'euros 


Methode construction d’un graphique 
sous forme d’aires delimitees par des courbes 


Tableau initial 


Annees 

Marseille 

Paris 

Lyon 

Total 

2002 

67,2 

128 

53,7 

248.9 

2003 

50.8 

140.7 

40,2 

231,7 

2004 

78,4 

200.1 

30.6 

309,1 

2005 

80,7 

250.2 

90,1 

421 

2006 

101.4 

180,6 

100.1 

382,1 

2007 

202.8 

170.1 

70.2 

443,1 

2008 

305.1 

280.2 

60.6 

645.9 


Tableau final pour tracer le graphique 


Annees 

Marseille 

Marseille et 
Paris 


Marseille, 
Paris et Lyon 


2002 

67,2 

195.2 


248,9 


2003 

50.8 

191,5 


231,7 


2004 

78.4 

278.5 


309,1 


2005 

80,7 

330.9 


421 


2006 

101.4 

282 


382.1 


2007 

202.8 

372 9 


443.1 


2008 

305,1 

585 3 


646.9 




2002 


2003 


2004 


2005 


2006 


2007 


2000 
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C - Graphique de dispersion ou nuage de points 

Un graphique de dispersion ou nuage de points est un graphique qui met en relation 
les valeurs de deux variables sur un repere de coordonnees cartesiennes. Nous 
avons deja rencontre ce type de graphique dans I’introduction a ce chapitre. En effet, 
les 4 graphiques du quartet d’ANSCOMBE sont des graphiques de dispersion. 

Prenons un autre exemple. Ci-apres, un tableau hypothetique qui illustre les 
differentes quantites d’un certain produit qu’un consommateur XXX est dispose a 
acheter suivant selon le prix du produit. 

Exemple de graphique de dispersion ou « nuage de points » 


Prix 

quantite 

3 

16 

4 

15 

5 

14 

6 

13 

7 

11 

8 

10 

9 

9 

10 

7 

11 

3 

12 

2 ; 5 

13 

2 

14 

1 



Le graphique de dispersion correspondant permet d’associer a chaque une 
coordonnee d’abscisse (la quantite) et une coordonnee d’ordonnee (le prix). 

Les graphiques de dispersion ou en nuage de points sont tres utilises pour I’etude 
des correlations entre deux variables. ( Voir le chapitre 6 ). 
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D - Secteurs 


Les graphiques en secteurs sont utiles lorsque Ton veut representer la relation entre 
une partie et un tout. On distingue les secteurs a 360° et ceux a 180°. Voyons un 
exemple de chacun d’eux avant de voir la methode de construction qui repose sur la 
conversion des pourcentages en degres. 

Reprenons les donnees du chiffre d’affaires hypothetique qu’une entreprise a realise 
en 2008 (249 327 045 euros) repartis par ses 4 vendeurs et dans les trois villes ou 
se trouvent ses clients. 


Ventes 2008 (euros) 



Leila 

Ahmed 

Pierre 

Elodie 

Total 

Marseille 

13 225 478 

20 154 287 

17 892 555 

15 897 233 

67 169 553 

Paris 

37 895 214 

35 877 421 

32 553 741 

22 044 687 

128 376 063 

Lyon 

18 753 951 

8 754 668 

9 785 246 

16 487 564 

53 781 429 

Total 

69 874 643 

64 786 376 

60 236 542 

54 429 484 

249 327 045 


1) Secteurs a 360 degres 

Le secteur a 360° ci-dessous represente la repartition des ventes totales entre les 
trois villes (Marseille en jaune, Paris en rouge et Lyon en vert). 

Ventes totales 

■ Marseille ■Paris ■Lyon 
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2) Secteurs a 180 degres 

Le secteur a 180° ci-dessous represente la repartition des ventes totales entre les 
trois villes (Marseille en jaune, Paris en rouge et Lyon en vert). Pour le faire avec 
EXCEL, voir lien internet ici . 


Ventes totales 

Marseille ■ Paris ■ Lyon 



3) Methode de construction 
a) Secteur a 360 degres 

Pour obtenir la part du chiffre d’affaire realise dans chaque ville, on divise le chiffre 
d’affaires realise dans la ville par le chiffre d’affaires total et on multiplie par 360. 

Par exemple, pour Marseille on a : 


67169553 

249327045 


x360=97 


Le tableau ci-dessous donne les resultats en degres pour les trois villes : 



Total 

frequences 

degres 

Marseille 

67169553 

0.27 

97 0 

Paris 

128376063 

0,51 

185.3 

Lvon 

53781429 

0.22 

77,7 

Total 

249327045 

1,00 

360.0 


Une fois que Ton a calcule les degres associes au chiffre d’affaire dans chaque ville, 
il faut tracer le secteur au moyen d’un compas, puis, avec un rapporteur, le diviser 
en 3 sous-secteurs ayant pour angle 97° (Marseille), 185,3° (Paris) et 77,7°(Lyon). 
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b) Secteur a 180 degres 

Pour obtenir la part du chiffre d’affaire realise dans chaque ville, on divise le chiffre 
d’affaires realise dans la ville par le chiffre d’affaires total et on multiplie par 180. 

Par exemple, pour Marseille on a : 


67169553 

249327045 


xl80 = 48,5 


Le tableau ci-dessous donne les resultats en degres pour les trois villes : 



Total 

frequences 

degres 

Marseille 

67 169 553 

0,27 

48.5 

Paris 

128 376 063 

0,51 

92.7 

Lyon 

53 781 429 

0,22 

38.8 

Total 

249 327 045 

1,00 

180.0 


Une fois que Ton a calcule les degres associes au chiffre d’affaires dans chaque ville, 
il faut tracer le secteur au moyen d’un compas, puis, avec un rapporteur, le diviser 
en 3 sous-secteurs ayant pour angle 48,5° (Marseille), 92,7° (Paris) et 38,8 degre 
(Lyon). Pour le faire avec EXCEL, voir lien internet ici . 

4) Anneaux 

a) Simples 

Les anneaux sont simplement des secteurs « troues » au milieu. Ainsi, par exemple, 
les deux secteurs precedents peuvent etre represents sous forme d’anneaux 
comme ci-apres. La seule difference etant le cercle vide du milieu dont la taille peu 
etre choisie de fagon arbitraire en fonction de consideration telles que I’esthetique ou 
1‘economie d’encre (si le graphique est destine a etre imprime et que Ton doit payer 
soi-meme la cartouche d’encre) par exemple. 


Ventestotales 


Ventes totales 


■ Marseille ■ Paris ■ Lyon 


■ Marseille ■ Paris ■ Lyon 
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b) Concentriques 


Un exemple typique d’anneaux concentriques est celui de la representation des 
resultats du second tour de I’election presidentielle de 2007 pour 3 villes 
hypothetiques. Dans le cercle interieur, on a la repartition des voix entre les deux 
candidats (dans cet exemple hypothetique, ils ont obtenu chacun 150 voix) et dans le 
cercle exterieur, on a la repartition des voix de chaque candidat dans chacune des 
villes. 



Voix 

Sego 

150 

Ville 1 

50 

Ville 2 

30 

Ville 3 

70 

Sarko 

150 

Ville 3 

30 

Ville 2 

70 

Ville 1 

50 



Total 

300 









Ville 1 
Ville 2 

Ville 3 



5 - Autres graphiques 


A - Graphiques en radar et toile d’araignee 


1 - Radar 


Soit par exemple 120 personnes qui sont interrogees dans la ville A et 120 
personnes dans la ville B sur la caracteristique qu’elles placent en premier lors de 
I’achat d’une maison. II s'agit d'une caracteristique avec 4 modalites. On a le tableau 
suivant: 



Ville A 

Ville B 

Modalites 

Nombre de personnes 

Nombre de personnes 

Emplacement du terrain 

40 

30 

Surface du terrain 

35 

30 

Surface de la maison 

25 

30 

Qualite de la construction 

20 

30 


120 

120 
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On peut alors placer ces donnees sur un diagramme « en radar» de la fagon 
suivante : 



2 - Toile d’araignee 

Le graphique en toile d’araignee est une variante du graphique en radar, mais avec 
un nombre d’axes plus grand. On I’utilise par exemple pour representer des donnees 
chronologiques. Soit par exemple une entreprise qui souhaite comparer le nombre 
de visiteurs mensuels sur son site internet en 2007 et en 2008. 

Nombre de visiteurs mensuels sur le site internet de I’entreprise XXX (milliers) 



2007 

2008 

Janvier 

13 

17 

Fevrier 

7 

12 

Mars 

5 

11 

Avril 

9 

16 

Mai 

4 

7 

Juin 

3 

8 

Juillet 

5 

14 

Aout 

9 

15 

Septembre 

S 

14 

Octobre 

9 

15 

Novembre 

3 

8 

Decembre 

12 

15 
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Une bonne fagon de presenter une comparaison visuelle est de faire le graphique 
en « toile d’araignee» suivant: 


Nombre de visiteurs par mois (en milliers) 

- 2007 - 2006 

Janvier 



Ce graphique donne immediatement deux informations : 

• Les visites en 2008 ont chaque mois ete superieures aux visites en 2007 

• II y a un caractere cyclique dans les visites, car les mois « creux » et les mois 
« pleins » sont les memes en 2007 et en 2008. 
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B - Graphiques a bulles 


Semblable au graphique de dispersion ou nuages de points, le graphique 
(ou diagramme) en bulles permet d'ajouter une troisieme dimension a 
I'analyse. Les deux premieres dimensions determinent la position des bulles 
sur le diagramme tandis que la troisieme fixe la surface de chacune des 
bulles. 


Exemple 1 (a faire avec un logiciel) - 

A titre d'exemple, soit les chiffres ci-dessous, extrait du tableau 1 , qui 
donnent I'age median, I'indice de fecondite. Le PIB par habitant en 2006 des 
pays de I'UE a 27 a ete ajoute. 

Age median, Indice de fecondite et PIB/habitant 


Pays 

Age 
median 
(estimation 
de juillet 
2007) 

Indice de 

fecondite 
(en normbre 
d’enfants 
par femme, 
estimation 
2007) 

PIB par habitant 
(en dollars) 

(Annee 2006) 

Allemagne 

43 

1,4 

34551 

Belgique 

41,1 

1,64 

35510 

France 

39 

1,95 

34035 

Italie 

42,5 

1,29 

30705 

Luxembourg 

35,9 

1,75 

72755 

Pays-Bas 

39,7 

1,66 

37159 

Danemark 

40,1 

1,74 

47334 

Irlande 

34,3 

1 ,56 

50169 

Royaume-Uni 

39,6 

1,66 

35707 

Grece 

41,2 

1,35 

20955 

Espagne 

40,3 

1,29 

26533 

Portugal 

33,3 

1,45 

16670 

Autriche 

41,3 

1,37 

37557 

Finlande 

41,6 

1,73 

37529 

Suede 

41 

1,66 

41313 

C hyp re 

35,1 

1.3 

20572 

Estonia 

39,4 

1,41 

10455 

Hongrie 

36,9 

1 ,33 

11341 

Lettonie 

39,6 

1,25 

7254 

Lituanie 

35,6 

1,21 

5422 

Malte 

39 

1,51 

13743 

Pologne 

37,3 

1,26 

5745 

Republique tcheque 

39,5 

1,22 

11536 

Slovaquie 

36,1 

1,33 

5773 

Slovenie 

41 

1 ,26 

15751 

Bulgaria 

40,9 

1,39 

3793 

Roumanie 

36.9 

1.35 

3591 


Dans le graphique a bulles ci-apres, 3 dimensions sont representees : I’indice de 
fecondite (axe vertical), I’age median (axe horizontal) et le PIB par habitant (surface 
de chaque « bulle »). 
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Exemple de graphique a bulles : Age median (axe horizontal), indice de fecondite (axe vertical) 
et PIB par habitant (surface de la bulle) des pays de I’UE a 27. Annees 2007 (age median et indice de fecondite) et 2006 (PIB/habitant en $) 
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Exemple 2 : Le tableau ci-dessous donne les performances macroeconomiques de 
2 pays hypothetiques A et B, en 2008. 



Chomage (%) 

Inflation (%) 

Croissance (%) 

Pays A 

4 

4 

4 

Pays B 

2 

6 

2 


Representer ces chiffres sur un graphique « en bulles » avec : 

• Le taux de chomage en abscisse 

• Le taux d’inflation en ordonnee 

• La croissance par un cercle de surface proportionnelle au taux du pays 
considere 

On obtient alors le graphique suivant: 


Taux d'inflation (%) 



0 1 2 3 4 5 


Taux de chomage (%) 


Dans cet exemple relativement simple, il suffit de faire en sorte que I’aire du disque 
qui represente le taux de croissance du pays A soit le double de I’aire qui represente 
le taux de croissance du pays B. 

Pour assurer la proportionnalite des aires, il faut passer par la formule de I’aire du 
disque : 


S = ttR 2 













On peut choisir pour reference la plus grosse valeur a representer sous forme de 
disque. 


Ensuite on lui attribue une aire arbitraire, par exemple 2 cm 2 et on en deduit le 
rayon : 



Pour tracer le cercle, on arrondira le rayon a 8 mm. 

On calcule ensuite I’aire de I’autre disque du graphique. Dans notre exemple, si I’aire 
du disque du pays A represente 4%, le disque du pays B, qui represente 2% doit 
avoir une aire 2 fois plus petite. Par consequent, I’aire du disque representatif de la 
croissance du pays B sera egale a la moitie de la surface du disque qui represente 
la croissance de A, soit 1 cm 2 . On en deduit ensuite le rayon du disque de B par la 
formule : 



-= 0,56 

1,772 


Pour tracer le cercle, on arrondira le rayon a 5,5 mm. 

En definitive, le disque de A aura un rayon de 8 mm (environ) et le disque de B aura 
un rayon de 5,5 mm (environ). Ceci n’est pas facile a tracer de maniere precise ! 
C’est la raison pour laquelle les graphiques a bulles sont generalement realises avec 
un logiciel. 

C - Graphiques boursiers 

Les graphiques boursiers sont appeles ainsi car ils servent principalement a donner 
des indications sur 1’evolution des cours boursiers. Dans I’exemple ci-apres, nous 
allons voir la version la plus simple du graphique boursier, mais des versions plus 
complexes sont possibles et facilement realisables dans EXCEL 2007 un fois que 
Ton a compris le principe de base. 

Soit le tableau ci-dessous qui donne revolution du cours journalier d’un titre boursier 
(en euros) deu 2 janvier au 31 janvier 2009, en en retenant que les jours ouvrables. 
On a releve 3 informations chaque jour: le cours le plus bas, le cours le plus haut et 
le cours de cloture. 
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Evolution du cours du titre XXX 


Date 

Cours le plus bas 

Cours le plus haut 

Cloture 

01/01/2009 

5 

15 

9 

02/01/2009 

5 

9 

8 

03/01/2009 




04/01/2009 




05/01/2009 

6 

10 

7 

06/01/2009 

8 

13 

10 

07/01/2009 

5 

13 

10 

08/01/2009 

13 

22 

19 

09/01/2009 

7 

20 

13 

10/01/2009 




11/01/2009 




12/01/2009 

5 

18 

11 

13/01/2009 

3 

16 

9 

14/01/2009 

8 

15 

10 

15/01/2009 

8 

13 

9 

16/01/2009 

13 

19 

15 

17/01/2009 




18/01/2009 




19/01/2009 

7 

15 

8 

20/01/2009 

5 

13 

9 

21/01/2009 

9 

13 

ii 

22/01/2009 

8 

15 

11 

23/01/2009 

10 

16 

13 

24/01/2009 




25/01/2009 




26/01/2009 

10 

15 

11 

27/01/2009 

7 

19 

12 

28/01/2009 

10 

20 

15 

29/01/2009 

6 

16 

9 

30/01/2009 

8 

15 

12 

31/01/2009 





Le graphique ci-apres, dit graphique boursier, permet de visualiser les 3 informations 


Evolution de la valeur du titre XXX 
du 01/01/2009 au 31/01/2009 
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D - Graphiques de TUKEY 

Le graphique « Boite a moustaches » ou diagramme en boTte (box plot) a ete 
invente en 1977 par le statisticien americain John TUKEY (1915-2000). 

1) Les elements constitutifs du graphique original 

Sur le graphique ci-apres, les elements suivants apparaissent: 

L’intervalle interquartile : il est defini par Q 3 - Qi et donne les "dimensions" de la 
boTte. 

Les moustaches : Ce sont les extremites gauche et droite du graphique (parfois 
appelees "pattes"). 

La moustache gauche est definie par la valeur de la serie immediatement 
superieure a Qi - 1,5 (Q 3 - Qi). S’il y a des valeurs inferieures a Qi - 1,5 (Q 3 - 
Qi) dans la serie, elles sont atypiques et representees par des marqueurs. 

La moustache droite est definie par la valeur de la serie immediatement 
inferieure a Q 3 + 1,5 (Q 3 - Qi). S’il y a des valeurs superieures a Q 3 + 1,5 (Q 3 
- Qi), elles sont representees par des marqueurs. 

La mediane : la valeur de la variable qui partage la population en deux populations 
egales. On la designe par I'abreviation Me. 


Bolte a moustaches de TUKEY 


Valeur(s) 
atypique (s) 
eventuelle (s) r 

- K 


1,5*(Q 3 -Qi) 

I 


I 


Qi' 1 ’®’(Q3 -Qi) Moustache 
gauche 


t r 

Qi 


(Q 3 -Qi) 

l 


m 6 


r 

Q 3 


1,5*(Q 3 -Qi) 

I 


Valeur(s) 
atypique (s) 
eventuelle (s) 


1 


*v+ 


Moustache 

droite 


N 


Q 3 + 1,5*(Q 3 —Qi) 


2) Exemple 18 

Soit la serie des 20 elements : {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} 

La mediane est egale a 3. De plus, Qi = 2 et Q 3 = 4. Enfin, la valeur minimale est 0 et 
la valeur maximale 5. Pour etre complet, on peut ajouter la moyenne de la serie qui 
est egale a 2,7. 


18 Pour tracer une boite a moustache avec EXCEL 2007, voir: http://bloq.immeria.net/2007/01/box- 
plot-and-whisker-plots-in-excel.html . Voir aussi : http://www.bloqqpro.com/box-plot-for-excel-2007/ 
(mais remplacer les valeurs Min et Max par les valeurs adequates si la distribution contient des 
valeurs atypiques). Enfin, voir aussi http://www.coventry.ac.uk/ec/~nhunt/boxplot.htm qui explique la 
construction d’une boite a moustaches avec EXCEL 97, 2003 et 2007. 
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Valeurs atypiques : Pour savoir s'il y a des valeurs atypiques il faut calculer Qi - 1,5 
(Q 3 -Qi) = 2- 1,5 x (4-2) = 2- 1,5x2 = 2 - 3 =-1 < 0 et Q 3 + 1,5 (Q 3 - Qi) = 4 + 
1,5 x (4 - 2) = 4 + 3 = 7 > 5. Conclusion : puisque -1 < 0 et que 7>5, n'y a pas de 
valeurs atypiques 19 . Par consequent, puisque la valeur immediatement superieure a 
Qi -1,5 (Q 3 - Qi) est 0 et que la valeur immediatement inferieure a Q 3 + 1,5 (Q 3 - Qi) 
est 5, les deux moustaches ont respectivement pour extremite gauche le minimum 
de la serie (soit 0) et pour extremite droite le maximum de la serie (soit 5). 

On a done le graphique boite a moustaches ci-apres. La boite est delimitee par Qi et 
Q 3 . A I'interieur de la boite un premier trait noir indique la mediane (et un second trait 
rouge [en pointille et facultatif] indique la moyenne). Les valeurs minimale et 
maximale constituent ici les moustaches, car elles sont comprises dans I’intervalle 
defini par Qi -1,5 (Q 3 - Qi) et Q 3 + 1,5 (Q 3 - Qi). 

Boite a moustaches de TUKEY pour la serie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 

2,1,3, 3, 4, 5} 


o 


ro 


CO 


-fi¬ 


eri 


Min 

Hi 
ii i 

CD 

II 

1 

M 1 
o 

O 

tl 

ro 

-N ! 

""■J 1 

:l 

0 

II 

LU 

1 

0 

Oj 

II 


m 


Voir lefichier EXCEL 


3) Le graphique de TUKEY simplifie 


La plupart des logiciels ne tiennent pas compte de la possibility de valeurs atypiques 
dans une serie et se contentent de prendre pour moustaches les valeurs minimum et 
maximum de la serie. On obtient alors un graphique de TUKEY simplifie comme ci- 
apres. 

Boite a moustaches de TUKEY simplifiee 


Minimum 

I— 

Moustache 

gauche 



Mi, 


Maximum 

-4 

Moustache 

droite 


Cependant, meme la version simplifiee ne fait pas I’unanimite, en raison des divers 
algorithmes employes pour calculer Qi et Q 3 (voir le chapitre 3). 


19 Selon Monique LE GUENN, « La valeur 1.5 est selon TUKEY une valeur pragmatique qui a une 
raison probabiliste. Si une variable suit une distribution normale, alors la zone delimitee par la boite et 
les moustaches devrait contenir 99,3 % des observations. On ne devrait done trouver que 0.7% 
d'observations atypiques. Si le coefficient vaut 1, la probabilite serait de 0.957, et elle vaudrait 0.999 si 
le coefficient est egal a 2. Pour TUKEY la valeur 1.5 est done un compromis pour retenir comme 
atypiques assez d’observations mais pas trop d’observations ». http://matisse.univ- 
parisl .fr/lequen/lequen2001 b.pdf 
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E - Graphiques panaches 


II existe une infinite de fagons de panacher les differents graphiques. Voyons 
quelques exemples. 

1) Secteur complete par une barre trongonnee 


Soient les donnees deja utilisees du chiffre d’affaires par ville et par vendeur d’une 
entreprise XXX en 2008. 


Venies 2003 [euf&a-j 



Leila 

j Ahmed 

Pierre 

F Elodie 

Total 

(Marseille 

11225 476 

! 2D 154. 237 

Lit M2 555 

15697 235 

67 159 555 

Paris 

[3? B25214 

; 55 677 421 

32 553 741 

22 ZH 637 

123 576 062 

Lyon 

1 * 753 351 

i 6 75* 666 

9 735 246 

i 16 437 564 

53 731 429 

Total 

W$7 4 641 

64 m 376 

63 236 54J 

i 54 429 434 

249 127 045 


Wen m 



Leila 

Ahmed 

Pierre 

Fladie 

fetal 

Marseille 





27 

Paris 





SI 

Lyon 





2? 

T otul 





100 


Wentes 3B6 m 



Leila 

Ahmed 

Pierre 

ttodia 

Total 

Marseille 






Pan a 

20 

23 

26 

17 

100 

Lvon 






Total 







On souhaite : 

• utiliser un secteur a 360° pour faire apparaitre la repartition du chiffre 
d’affaires entre les trois villes. 

• Decomposer le chiffre d’affaires realise sur Paris entre les quatre vendeurs et 
le faire apparaitre au moyen d’une barre verticale trongonnee a 100%. 


Repartition du CA par ville 




Repartition du CA par vendeur 
(Paris Seulement) 

,_ k 

^ ( 


Leila 

30% 

Ahmed 

28% 

Pierre 

25 % 

Elodie 

17% 
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Un autre exemple de graphique panache, symetrique du precedent, consiste a faire 
une barre trongonnee dont une des «trongons » est lui-meme decompose en en 
secteur. Void un exemple realise avec PowerPoint 2007. 

Un autre exemple de graphique panache 


Ventes parvilles 

(millions d'Euros) 


Ville 1 


Ville 2 


Ville 3 


Ville 4 


35 


Repartition en % des produits 

venduis dans la ville 2 



Produit 1 


Prod u it 2 


Produit 3 


Produit 5 


D’apres Kathy VILLELA, “Graphic elements that connect two objects” 
http://www.powerframeworks.com/makevourpoint/?p=73 . Telecharger le graphique 
au format PowerPoint 2007 . 

2) Graphique de PARETO 

Le graphique de PARETO est un cas particulier du graphique a echelle verticale 
double . Avant de voir comment il se construit, il convient de rappeler la « loi de 
PARETO » dont il sert a verifier la validite. Le graphique a en fait ete invente par 
Joseph Moser DURAN (1904 -), fondateur de la demarche qualite. Le graphique de 
PARETO est en effet I’un des sept graphiques de base utilise dans les controles de 
qualite. S’il est appele graphique de PARETO et non graphique de DURAN (ou 
graphique de Kaoru ISHIKAWA [1915-1989]), autre fondateur du management de la 
qualite), c’est en raison de la « loi de PARETO » que nous allons done exposer pour 
commencer. 

a) De la loi de PARETO au graphique de PARETO 

Vilfredo PARETO, economiste et sociologue de la fin du 19eme siecle et du debut du 
20eme siecle (1848-1923) a notamment etudie la repartition des revenus dans 
differents pays. Une des principaux constats qui ressort de cette etude est une "loi", 
dite "Loi de PARETO": dans presque tous les pays, 80% de la richesse sociale 
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etait possedee par 20% des individus. Par la suite, on s'apergut qu'un grand 
nombre de phenomenes etaient gouvernes par la loi du 80/20 : 

20 % des clients represented 80 % du chiffre d'affaires 

20% des pieces stockees dans une entreprise represented 80% de la valeur du 
stock 

20% des fournisseurs represented 80% du volume d'achat total 
20% du personnel effectue 80% du travail 

20% des salaries d’une entreprise empoche 80% de la masse salariale 

20% des automobilistes causent 80% des accidents 

20% des vetements d'une garde-robe sont portes 80% du temps 

20% des produits represented 80% du chiffre d'affaires 

20% des ventes represented environ 80% de la marge beneficiaire 

20% du personnel total est concerne par 80% des accidents du travail 

20% des causes peuvent etre a I'origine de 80% des defauts 

20% des clients sont a I'origine de 80% des reclamations 

20% de la population paie 80% des impots 

20% des delinquants generent 80% des delits 

20% des joueurs de foot marquent 80% des buts 

20% des problemes represented 80% des preoccupations 

20% des pays emettent 80% des gaz a effet de serre. 

20% des acteurs jouent dans 80% des films. 

Source : http://www.ed-productions.com/leszed/index.php780-20-pareto 

Ces exemples illustrent la loi de PARETO. Quelques causes majeures, une fois 
isolees, permettent de resoudre la plus grande partie d'un probleme de qualite. Une 
fois ces causes majeures identifies, on peut concentrer les efforts et les ressources 
a les eliminer. Le graphique de PARETO est une fagon de visualiser la loi des 
80/20. Mais, comme on va le voir dans I'exemple etudie plus loin, cette loi n'est pas 
systematique, il arrive tres souvent aussi que 20% des causes expliquent beaucoup 
moins que 80% des resultats. 

b) Definition, construction, exemple et interpretation 

Un diagramme de PARETO est un graphique qui combine un graphique en barre 
et une courbe cumulative. II sert principalement a I'etude des donnees qualitatives, 
mais rien n'empeche de I'utiliser pour des donnees quantitatives. 

Procedure pour construire le graphique : 

i) Si les donnees sont sous forme d'une serie, les regrouper par modalites 
(donnees) ou par valeurs (donnees quantitatives), de fagon a obtenir une 
distribution par modalites ou par valeurs (eventuellement, une distribution par 

classes de modalites ou par classes de valeurs). 

ii) Classer les valeurs ou les modalites par ordre decroissant des effectifs 

iii) Ajouter une colonne pour la distribution en pourcentages 
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iv) Ajouter ensuite une colonne de pourcentages cumules 

v) Faire un graphique pour representer simultanement: 

- La distribution des pourcentages par un graphique en barre, en mettant I'axe 
des y a gauche 

- Les pourcentages cumules par une courbe des pourcentages cumules, en 
mettant I'axe des y a droite 

Exemple : Supposons que Ton veuille etudier les raisons de la resiliation d'un 
abonnement en ligne. Le probleme ici est de comprendre pourquoi les abonnes 
resilient leur abonnement (afin de reduire le nombre de resiliation). On recherche 
done les causes. Pour ce faire, lorsque les clients resilient leur abonnement, on leur 
propose un questionnaire (volontairement simplifie dans cet exemple) ou ils sont 
invite a cocher la case qui correspond a la raison de la resiliation de leur 
abonnement. Supposons que les 5 choix suivants leurs soient proposes (Remarque : 
nous sommes en presence de donnees qualitatives non hierarchisables, les choix 
sont done des modalites nominales : le contenu du site ne correspondait pas a mes 
attentes (reponse codifiee par "A"), le contenu n'est pas bon (reponse codifiee par 
"B"), le contenu n'est pas renouvele assez souvent (reponse codifiee par "C"), 
difficultes techniques pour acceder au contenu (reponse codifiee par "D"), Autres 
(reponse codifiee par "E"). 

On a obtenu les resultats suivants en etudiant 15 cas de resiliations : {E, B,D, E, D, 
E, A, B, B,C, D, A, B,B, E}. Evidemment, en realite, on etudierait un nombre de cas 
beaucoup plus grand, mais le principe de construction resterait identique. 
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Construction du graphique : 


i) Si les donnees sont sous forme d'une serie, les regrouper par modalites (donnees 
qualitatives) ou par valeurs (donnees quantitatives), de fagon a obtenir une 

distribution : 


Modalites 

Nombre de reponses 

Le contenu ne correspond pas a mes attentes (A) 

2 

Le contenu n'est pas bon (B) 

5 

Le contenu n'est pas renouvele assez souvent (C) 

1 

Difficultes techniques pour acceder au contenu (D) 

3 

Autres (E) 

4 

Total 

15 


ii) Classer les valeurs ou les modalites par ordre decroissant des effectifs : 


Modalites 

Nombre de reponses 

Le contenu n'est pas bon 

5 

Autres 

4 

Difficultes techniques pour acceder au contenu 

3 

Le contenu ne correspond pas a mes attentes 

2 

Le contenu n'est pas renouvele assez souvent 

1 

Total 

15 


iii) Ajouter une colonne pour la distribution en pourcentages 


Modalites 

Nombre de reponses 

Pourcentages 

Le contenu n'est pas bon 

5 

33,3 

Autres 

4 

26,7 

Difficultes techniques pour acceder au contenu 

3 

20,0 

Le contenu ne correspond pas a mes attentes 

2 

13,3 

Le contenu n'est pas renouvele assez souvent 

1 

6,7 

Total 

15 

100,0 


iv) Ajouter ensuite une colonne de pourcentages cumules 


Modalites 

Nombre de 
reponses 

Pourcentages 

Pourcentages 

cumules 

Le contenu n'est pas bon 

5 

33,3 

33,3 

Autres 

4 

26,7 

60,0 

Difficultes techniques pour acceder au 
contenu 

3 

20,0 

80,0 

Le contenu ne correspond pas a mes 
attentes 

2 

13,3 

93,3 

Le contenu n'est pas renouvele assez 
souvent 

1 

6,7 

100,0 

Total 

15 

100,0 
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v) Faire un graphique pour representer simultanement: 

- La distribution des pourcentages par un graphique en barre, en mettant I'axe 
des y a gauche 

- Les pourcentages cumules par une courbe des pourcentages cumules, en 
mettant I'axe des y a droite 



Fichier EXCEL 


c) Interpretation 

Dans notre exemple, on voit que la loi de PARETO n'est pas verifiee. En effet, la loi 
de PARETO veut que 20% des causes expliquent 80 % des resultats. Or ici, il y a 5 
causes. Done une cause represente a elle seule 20% des causes. Pour que la loi de 
PARETO soit verifiee, il faudrait qu'une seule cause (20% des causes) explique 80% 
des resultats (80% des resiliations). Or, ici, la premiere cause n'explique que 35% 
des resiliations et il faut 3 causes, soit 60% des causes, pour parvenir a expliquer 
80% des resultats. 

On peut se reporter au site internet suivant qui donne un exemple interessant: 
www.economie-cours/stats/Powerpoint/exemple-ParetoOl.ppt 
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F - Histogramme 

L’histogramme peut parfois etre assimile a un graphique en barre verticales. C’est le 
cas lorsque le graphique en barres verticales a pour echelle horizontale des 
categories numeriques d’amplitudes egales. Mais I’histogramme se distingue du 
graphique en barres verticales lorsque les categories numeriques de I’axe horizontal 
sont d’amplitudes inegales. Le diagramme de VENN ci-apres permet d’illustrer ce 
point et les exemples qui suivent permettent de le preciser. 

Barres verticales et histogrammes : pas toujours la meme chose ! 



Barres verticales 


Echelle nominate 

Ventesen 2007 (euros) 


Echelle 
numerique 
avec categories 
numeriques 
d'egales 


Histogrammes 


Echelle 
numerique 
avec categories 
numeriques 
d'inegales 



l" 





amplitudes 


- 





—i_ 

T~l~h~ 
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S’agissant des histogrammes, il convient en outre de distinguer les histogrammes 
d’effectifs et les histogrammes de frequences. Nous allons done etre amenes a 
etudier 4 types d’histogrammes comme indique dans le tableau ci-dessous. 

Les 4 types d’histogrammes 


Histogramme d'effectifs 


2 


Histogramme de frequences 


Amplitudes de 
classes egales 




p* rw(ip«o««n.i 





3 


Amplitudes de 
classes i negates 




Nous allons construire chacun de ces 4 types d’histogrammes ci-apres en les 
identifiant par leur numero dans le tableau (de 1 a 4). 

1) Amplitude de classes identiques 


Soir le tableau ci-dessous qui donne la population mondiale en 2008 (estimation dite 
« en milieu d’annee ») par groupes d’ages quinquennaux (hommes et femmes 
confondus). La derniere colonne, intitulees « frequences » est simplement calculee 
en divisant I’effectif de chaque classe d’age par la population mondiale totale. Par 
exemple, pour obtenir le premier chiffre de la colonne des frequences (classe d’age 
des 0-4 ans), on a effectue le calcul suivant: 


631830670 

6706992932 


0.094204761 


Soit, en arrondissant: 0,094. 
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On remarque que toutes les classes d’ages sont identiques (5 ans) 20 . Les classes 
ont la meme amplitude. A chaque classe d’age est associe un effectif (colonne des 
effectifs) ou une frequence (colonne des frequences). La somme des effectifs donne 
la population mondiale en 2008, tandis que la somme des frequences est egale a 1. 

Nous allons d’abord voir comment se presente I’histogramme des effectifs, puis 
ensuite I’histogramme des frequences. 


Population mondial* enlOOB 
par groupe d'age qpinqpennaux 
(Source : http:/A'v’V.v. c e ns us nEov/i pc/www/i d fa/ta bl e s. titin I 


Groupes d'age 

Effectifs 

Frequences 

0-4 ans 

631830670 

0,094 

5-9 a ns 

603252033 

0,090 

10-14 ans 

597053767 

0,0S9 

15-19 ans 

■601271944 

0,090 

20^24 ans 

532319765 

0,037 

25-29 ans 

530412322 

0,030 

30-34 ans 

497152332 

0,074 

35-39 ans 

490257604 

0,073 

4fr44 an.5 

446771061 

0,067 

45-49 ans 

375195786 

0,056 

50-54 ans 

341483006 

0,051 

55-59 ans 

262446909 

0,042 

60-64 ans 

214039542 

0,03 2 

65-69 ans 

174129413 

0,026 

70-74 ans 

137647461 

0,021 

75-79 ans 

97020391 

0,015 

SO et pl us 

93057399 

0,015 

Total 

0 700 992 932 

1 


a) Histogramme des effectifs 

Sur I’histogramme des effectifs ci-apres, on peut voir que : 

• L’axe horizontal a pour echelle des categories numeriques d’amplitude egales 
(5 ans) 

• L’axe vertical correspond a I’effectif de population associe a la classe d’age 
correspondante. 


20 La derniere classe va en fait de 80 a plus de 110 ans, mais pour simplifier, nos la supposons egale 
a 5 ans, en nous basant sur le fait que le nombre des 85 ans et plus reste encore minime compare a 
I’ensemble de la population mondiale, meme s’il est appele a augmenter. 
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Millions 


Exemple d’ histogram me d’effectifs quand les categories numeriques sont d’amplitudes egales 
Correspond a I’histogramme numerate 1 dans le tableau « Les 4 types d’histoqrammes » 




































Frequences 


Exemple d’ histogram me de frequences quand les categories numeriques sont d’amplitudes egales 
Correspond a I’histogramme numerate 2 dans le tableau « Les 4 types d’histoqrammes » 
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b) Histogramme des frequences 

Sur I’histogramme des frequences ci-avant, on peut voir que : 

• L’axe horizontal a pour echelle des categories numeriques d’amplitude egales 
(5 ans) 

• L’axe vertical correspond a la frequence associee a la classe d’age 
correspondante. 

Les deux histogrammes (celui des effectifs et celui des frequences) ont la meme 
forme, mais different par I’echelle de I’axe vertical. 


2) Amplitude de classes differentes 


Pour bien comprendre ce qu’est un histogramme (d’effectifs ou de frequences) 
lorsque que les categories numeriques de I’axe horizontal sont d’amplitudes 
differentes, prenons I’exemple d’un echantillon de 110 menages dont le revenu 
mensuel en euros est donne par la serie classee ci-apres : 

Revenu = {1100, 1130, 1150, 1200, 1220, 1300, 1300, 1310, 1350, 1400, 1400, 
1400, 1400, 1450, 1460, 1480, 1490, 1490, 1495,1495, 1500, 1500, 1550, 1600, 
1600, 1630, 1640, 1700, 1900, 2000, 2020, 2050, 2070, 2090, 2100, 2200, 2220, 

2400, 2500, 2540, 2560, 2600, 2710, 2730, 2750, 2800, 2810, 2810, 2820, 2840, 

2850, 2850, 2850, 2870, 2890, 2900, 2920, 2960, 2980, 2990, 3000, 3000, 3000, 

3000, 3000, 3030, 3050, 3070, 3080, 3090, 3090, 3090, 3095, 3100, 3200, 3210, 

3250, 3280, 3300, 3350, 3400, 3400, 3400, 3400, 3420, 3450, 3500, 3550, 3560, 

3570,3575, 3600, 3610, 3800, 4000, 4100, 4250, 4300, 4310, 4380, 4500, 4560, 
4580, 4590, 4590, 5000, 6000, 7500, 9000, 9800}. 


Supposons que Ton souhaite repartir ces menages dans les categories de revenu 
suivantes : [0 - 1500[; [1500 - 3000[ ;[3000 - 5000[; [5000 - 10000[. On va alors 
obtenir le tableau d’effectifs suivant: 


Repartition des 110 menages par classe de revenu 


Classes de revenu 

Effectifs 

[0-1500[ 

20' 

[1500-3000[ 

40 

[ 3000-5000 [ 

45 

[5000-10000 [ 

5 


110 









L’amplitude de chaque classe n’est pas la meme. Les 2 premieres classes ont une 
amplitude de 1500 euros, la troisieme a une amplitude de 2000 euros et la derniere 
classe a une amplitude de 5000 euros. Par consequent, si Ton veut representer ces 
donnees sous forme d’un histogramme d’effectifs, nous ne pouvons pas proceder de 
la meme fagon que lorsque les amplitudes de classes sont identiques. En effet, sur 
I’axe vertical, les « barres » n’auront plus la meme longueur. L’echelle de I’axe 
horizontal est le suivant: 


Classes de revenu 


1500 3000 5000 1000G 


On voit que dans ces conditions, la hauteur des barres verticales ne peut plus etre 
proportionnelle aux effectifs, car cela aboutirait a donner une image fausse de 
I’importance des effectifs inclus dans chaque classe. 

a) Histogramme d’effectifs 

Pour tracer I’histogramme des effectifs, il faut done modifier I’echelle de I’axe vertical 
en divisant les effectifs de chaque classe par I’amplitude de classe correspondante. 
On ajoute pour cela deux colonnes au tableau precedent: 

Calcul des effectifs corriges (effectifs sur amplitudes) 


Classes de revenu 

Amplitudes de classe 

Effectifs 

Effectifs /amplitudes 

[0-1500[ 

1500 

20 

0,013 

[1500-3000 [ 

1500 

40 

0,027 

[3000-5000[ 

2000 

45 

0,023 

[5000-10000 [ 

5 000 

5 

0,001 
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La colonne « amplitude de classe » donne I’ecart en euros entre les deux extremites 
de chaque classe. La colonne « effectifs corriges » se calcule en divisant chaque 
effectif par I’amplitude de classe qui lui correspond ; Ainsi, I’effectif corrige de la 
classe de revenu [0 - 1500[ s’obtient par I’operation suivante : 


—— = 0,01333333 
1500 

C’est-a-dire 0,013 en ne conservant que les 3 premieres decimales. Les autres 
chiffres de la colonne s’obtiennent de la meme fagon. 

Nous pouvons maintenant tracer I’histogramme des effectifs (voir graphique ci- 
apres). Dans cet histogramme, ce n’est plus la hauteur de chaque barre qui indique 
I’effectif, mais sa surface. C’est la raison pour laquelle I’effectif est reporte 
directement sur chaque barre, tandis que I’axe vertical mesure I’effectif corrige, ou 
plus precisement I’effectif divise par I’amplitude de classe. Sur cet histogramme, 
ce n'est plus la hauteur qui correspond a I'effectif, mais la surface. On peut voir 


139 












facilement que la barre qui correspond a 40 a une surface double de celle qui 
correspond a 20. Et, bien que cela ne soit pas evident visuellement, la barre qui 
correspond a 45 a une surface qui est 45/40=1,125 plus grande que celle qui 
correspond a 40 et une surface 45/5 = 9 fois plus grande que celle qui correspond 
a 5. 


Histogramme d’effectifs 

avec categories numeriques d’amplitudes differentes 
Correspond a I’histogramme numerate 3 
dans le tableau « Les 4 types d’histoqrammes » 


Eff ectif s/am plitude s 



Classes de revenu 


b) Histogramme de frequences 

Pour tracer I’histogramme des frequences, il faut done modifier I’echelle de I’axe 
vertical en divisant les frequences de chaque classe par I’amplitude de classe 
correspondante. 
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On construit pour cela le tableau suivant: 

Calcul des frequences corrigees (frequences sur amplitudes) 


Classes de revenu 

Amplitudes de classe 

Effectifs 

Frequences 

Fre q ue n ces/a m p 1 itu des 

[0 -15O0[ 

1 500 

20 

0,182 

0,000121212 

[1 500-3000 [ 

1 500 

40 

0,364 

0,000242424 

[3000-5000[ 

2 000 

45 

0,403 

0,000204545 

[5000-10000[ 

5 000 

5 

0,045 

0,000003031 



1.10 

1,000 



Dans ce tableau, la colonne des frequences correspond aux effectifs de chaque 
classe divises par I’effectif total et la colonne des « frequences corrigees » est egale 
au rapport de chaque frequence a I’amplitude de classe correspondante. 

On obtient un histogramme de frequence qui a exactement la meme forme que 
I’histogramme des effectifs, mais I’echelle verticale est graduee differemment (c’est 
I’echelle des amplitudes corrigees). Et dans chaque barre figure maintenant la 
frequence qu’elle represente. 

Histogramme de frequences 
avec categories numeriques d’amplitudes differentes 
Correspond a I’histogramme numerote 4 dans le tableau « Les 4 types 

d’histoqrammes » 


Frequences/amplitudes 



Classes de revenu 
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G - Pyramide des ages 

La pyramide des ages est un outil de I'analyse demographique invente en 1870 par 
le General WALKER, alors directeur du Bureau of Census, organisme americain 
charge du recensement de la population et des etudes demographiques. 

C'est en fait un double histogramme qui indique la composition d’une population 
par classes d’ages et par sexe, a un moment donne. 

Faire une pyramide, c'est faire le graphique du nombre d'hommes et de femmes de 
differents ages. Pour cela on place dos a dos, deux histogrammes decrivant la 
structure par classe d’age d’une population masculine pour le premier et d’une 
population feminine pour le second. Le tableau ci-dessous repertorie la population 
mondiale par groupe d’ages quinquennaux et par age en 2008. Nous allons I’utiliser 
a titre d’exemple pour construire la pyramide des ages. 



L’histogramme A ci-dessous represente la repartition de la population masculine 
mondiale en 2008 suivant les donnees du tableau precedent. II s’agit d’un 
histogramme dont les amplitudes de classe sont identiques (5 ans) et qui peut done 
etre assimile a un graphique en barres ( voir le diaqramme de VENN qui explique les 
differences et les similitudes entre barres verticales et histogramme ). 

Histogramme A 


4* Millions 



Nous pouvons ensuite faire effectuer une rotation a ce graphique de fagon a 
obtenir I’histogramme B. 


Histogramme B 
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L’histogramme C ci-dessus represente 
la repartition de la population feminine mondiale en 2008 

Histogramme C 
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Nous pouvons ensuite faire effectuer a ce graphique une rotation de 90 degres dans 
le sens inverse des aiguilles de la montre puis un pivotement de gauche a droite 
autour de I’axe vertical de fagon a obtenir I’histogramme D. 

Histogramme D 
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Et finalement, en mettant cote a cote les histogrammes B et D, nous obtenons la 
pyramide classique des ages de la population mondiale en 2008 : 


Population! mondiale en 2008 
par grouped r age quinquennauxetparsexe 


BO et plus 


















70-74 a ns 
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i i J 


400 300 200 100 0 100 200 300 400 

(Source : http://www,census.eov/c£i-bin/ipc/idbagfl > Millions 


II s’agit en fait d’un graphique qui represente TROIS dimensions : I’age, le sexe et les 
effectifs associes a ces deux categories. 

H - Graphique en cascade 

Le graphique en cascade (« waterfall graphic ») est une variante du graphique en 
barres. II serf a faire apparaTtre : 

- les contributions positives et negatives a une grandeur 

- les variations successives d'une grandeur. 

Exemple : Le tableau ci-dessous indique revolution du chiffre d'affaire d'une 
entreprise de 2003 a 2008. La troisieme colonne du tableau met en evidence les 
augmentations et la quatrieme les diminutions. On voit ainsi que le CA a augmente 
en 2004, 2005 et 2007, et qu'il a baisse en 2006 et 2008. 


Annees 

CA (euros) 

Plus 

Moins 

2003 

210000 



2004 

280000 

70000 


2005 

330000 

50000 


2006 

300000 


-30000 

2007 

360000 

60000 


2008 

320000 


-40000 
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Le graphique en cascade va permettre de faire apparaTtre ces variations (en milliers 
d'euros sur le graphique): 



Voir le fichier Excel (il faut d'abord installer la macro : telecharqeable ici ) 

On voit ainsi immediatement la contribution de chaque annee et on peut visualiser: 

• I'importance de la contribution 

• Si la contribution est positive ou negative. 

• comment on est passe de 210 a 320 par variations successives. 

I - Graphique a trois dimensions 

Grace aux ordinateurs et aux logiciels il est devenu tres facile aujourd’hui de realiser 
de beaux graphiques en 3D. La troisieme dimension reste cependant une 
construction visuelle dans la mesure ou elle doit etre affichee sur des ecrans a 2 
dimensions 21 . EXCEL 2007 offre diverses possibility, tout comme d’autres logiciels, 
tels que Mathematica . En revanche, a moins d’etre tres bon dessinateur, il est 
impossible de realiser ce type de graphique avec la regie, le rapporteur, le compas 
et les crayons de couleur (a I’inverse de tous les autres graphiques vus jusqu’a 
present). 


21 Ceci est appele a changer dans les decennies a venir. 
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On peut distinguer 3 categories de graphique en 3D : 

• Les « faux » graphiques en 3D qui ne sont que des graphiques en 2D 
auxquels on a ajoute une profondeur a des fins visuelles. 

• Les graphiques en barres a 3 dimensions 

• Les graphiques dits « de surface » (non traite) 

1) Graphiques en 2D avec ajout de profondeur 

Pour illustrer ce type de graphique, reprenons les donnees du chiffre d’affaires 
hypothetique qu’une entreprise a realise en 2007 249 327 045 euros) repartis par 
ses 4 vendeurs et dans les trois villes ou se trouvent ses clients. 


Ventes 2008 (euros) 



Leila 

Ahmed 

Pierre 

Elodie 

Total 

Marseille 

13 225 478 

20 154 287 

17 892 555 

15 897 233 

67 169 553 

Paris 

37 895 214 

35 877 421 

32 558 741 

22 044 687 

128 376 063 

Lvon 

18 753 951 

8 754 668 

9 785 246 

16 487 564 

53 781 429 

Total 

69 874 643 

64 786 376 

60 236 542 

54 429 484 

249 327 045 


Lorsque Ton ajoute de la « profondeur» ou de la « perspective » au graphique en 
barres verticales ou aux secteurs classiques, on obtient ce genre de resultats (voir 
graphiques ci-apres). 

Bien entendu, le nombre de dimensions n’a pas change par rapport a I’equivalent 2D 
de ces deux graphiques qui n’ont que I’inconvenient de paraTtre « plats » par 
comparaison. 

Les graphiques 2D avec ajout de profondeur ou de perspective attirent davantage les 
regards. II ne faut done pas se gener pour les utiliser surtout etant donne la facilite 
avec laquelle on peut les realiser grace aux logiciels. 
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Million* 


A gauche, graphiques en 2D avec ajout de « profondeur » ; a droite : leurs equivalents 2D 


Ventesen 2008 (euros) 


Ventesen 2008 (euros) 



Elodie |_ e i| a Ahmed Pierre Elodie 


Ventes en 2008 (euros) Ventes en 2008 (euros) 



Marseille 

■ Parrs 

■ Lyon 



Marseille 

■ Paris 

■ Lyon 



















2) Graphique en barres avec 3 dimensions "reelles" 

Par comparaison avec les graphiques en 2D avec ajout de profondeur, les 
graphiques en barres avec 3 dimensions ajoute reellement une dimension 
supplemental. 

Cette fois, nous allons utiliser un seul graphique en barres verticales pour montrer a 
la fois la repartition du CA par villes et par vendeur en 2008. 



Ventes 2Q08 (euros) 



Leila 

Ahmed 

Pierre 

Elodie 

Lyon 

1S 753 951 

8 754 668 

9 785 246 

16 487 564 

Marseille 

13 225 478 

20 154 287 

17 892 555 

15 897 233 

Paris 

37 895 214 

35 877 421 

32 558 741 

22 044 687 


69 874 643 

64 786 376 

60 236 542 

54 429 484 


















6 - Resume 


Les diagrammes et les graphiques sont des representations visuelles simplifies, 
mais neanmoins rigoureuses, de chiffres, de concepts, de categories, d’images, etc. 
Bien que certains diagrammes represented aussi des chiffres, c’est principalement 
au graphique que cette fonction incombe. Plus precisement, en statistique 
descriptive, le graphique sert a representer visuellement des informations sur les 
dimensions (caracteres ou variables) d’une population d’unites statistiques. 

Les graphiques revelent des informations sur la forme des series que les 

tableaux et les statistiques resumees ne peuvent pas toujours montrer. 

Beaucoup de graphiques a deux dimensions se presented sous la forme suivante 
dite d’un « systeme de coordonnees cartesiennes ». II existe differentes sortes 
d’echelles propres a ce type de representations graphiques. 

Une echelle numerique est une echelle qui mesure des valeurs qui peuvent varier 
de moins I’infini a plus I’infini. 

Une echelle de categories est une echelle sur laquelle sont portees des categories. 

II peut s’agir: 

• De categories numeriques (echelle quantitative) 

• De categories non numeriques dites « nominales » (echelle qualitative) 

Un graphique a echelle verticale double permet de representer les valeurs ou les 
modalites d’une variable ou d’un caractere sur I’echelle verticale de droite et les 
modalites d’une variable ou d’un caractere sur I’echelle verticale de gauche. 

L’echelle logarithmique est une echelle qui mesure le logarithme decimal des 
valeurs de la variable. C'est un excellent moyen de mettre en evidence une idee ou 
un resultat grace aux proprietes des logarithmes decimaux. 

Parmi les diagrammes statistiques, on distingue notamment le pictogramme, 
dessin generalement en couleur, congu de preference par un infographiste, qui 
essaie de traduire non seulement des donnees quantitatives, mais egalement des 
informations d’ordre commercial ou esthetique, le cartogramme, pour localiser 
geographiquement des valeurs ou des modalites relatives a une variable ou a un 
caractere decrivant les unites statistiques d’une population et le diagramme de 
GANTT, qui est un outil de gestion de projets. II sert a visualiser dans le temps les 
differentes etapes qui composent un projet. 

Parmi les 73 representations graphiques de base proposees par le logiciel EXCEL 
on distinguera plus particulierement les graphiques usuels suivants : graphique en 
barres, horizontales ou verticales, simples, multiples ou trongonnees, les courbes, 
les aires delimitees par des courbes, les nuages de points et les secteurs a 360 ou 
180 degres, concentriques ou non. 

Mais la liste des graphiques ne peut pas par definition, etre exhaustive, car seule 
I’imagination en limite le nombre. Ainsi a-t-on aussi etudie dans ce chapitre, outre les 
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graphiques usuels, d’autres graphiques tels que les anneaux et les « radars » et 
autres graphiques en toile d’araignee, les graphiques a bulles, le graphique de 
TUKEY, les graphiques « panaches », le graphique de PARETO, I’histogramme 
(qu’il faut distinguer du graphique en barres verticales quand les amplitudes de 
classes sont inegales), la pyramide des ages, le graphique en cascade et les 
representations tridimensionnelles. 
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Chapitre 6 

Tendances et correlations 


0 - Introduction 

1 - La determination de la tendance d’une serie chronoloqique 

A - Determination qraohigue 

B - Determination par la methode des points extremes 
C - Determination par la methode des moindres carres (MCO) 

2- L’etude de la correlation entre deux variables 

A - L’exemple d’une fonction de demande 

B - L’equation de regression lineaire 
C - Le coefficient de determination 

3 - Le test d’independance du Khi-carre de PEARSON 

A - Introduction 
B - Exemple d’utilisation 

4 - Resume 


0 - Introduction 

Ce chapitre est consacre a I’utilisation d’un meme outil statistique, 1‘ajustement 
lineaire, aussi appele « methode des Moindres Carres Ordinaires (MCO)» appliquee 
successivement: 

• A I’etude de la tendance d’une serie chronologique. 

• A la mise en evidence d’une correlation entre deux variables. 

Ci-apres, deux graphiques : 

• I’un illustre le trace d’un trend (« tendance ») lineaire a partir de I’etude d’une 
serie chronologique (taux de chomage en France de 1997 a 2008) 

• I’autre illustrant le trace d’une droite lineaire pour apprecier I’existence d’une 
relation entre deux variables (prix et quantite d’un produit). 

Dans les deux cas, ces droites ont ete obtenues a I’aide de la methode des moindres 
carres ordinaires : 

• pour les series chronologiques, on la qualifie de « trend lineaire », 

• pour I’etude de la relation statistique entre deux variables, on parle plus 
volontiers de « droite de regression ». 
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Pour I’etude de la correlation entre deux dimensions dont I’une au moins n’est pas 
quantitative, c’est le test d’independance du Khi-carre, etudie en section 3, qui 
remplace I’ajustement lineaire 22 . 

Trend lineaire d’une serie chronologique 



Ajustement lineaire de la relation entre prix et quantite d’un bien 



22 Le test du Khi-carre est souvent presente, a juste titre, comme un test d’independance entre deux 
dimensions - qu’il s’agisse de variables ou de caracteres ou des deux - quand les donnees sont 
regroupees en categories. Si Ton se refere a cette definition, les donnees distributes par modalites (et 
a fortiori par valeurs) semblent exclues. Mais, en pratique, on ne voit pas pourquoi elles le seraient. 
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1 - La determination de la tendance d’une serie chronologique 
A - Determination graphique 

Soit le tableau suivant qui donne revolution du taux de chomage en France de 1994 
a 2008. 


Annees 

Taux de chomage (%) - France 

1997 

11,5 

1998 

11,1 

1999 

10,5 

2000 

9,1 

2001 

8,4 

2002 

8,6 

2003 

9 

2004 

9,3 

2005 

9,3 

2006 

9,2 

2007 

8,3 

2008 

7,7 (estimation) 


Source : FMI 


Pour etudier revolution de cette serie chronologique, le plus simple est de la 
representer a I’aide d’un graphique en ligne : 

Taux de chomage en France de 1997 a 2008 (selon donnees FMI) 



On constate alors que la « tendance » du taux de chomage sur les 12 dernieres 
annees est a la baisse. On constate aussi qu’apres avoir baisse jusqu’en 2001, le 
taux de chomage a connu une legere remontee avec un pic en 2004 et a ensuite 
encore baisse pour atteindre 7,7 % en 2008. 
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Bien souvent, cette analyse graphique est suffisamment eloquente pour ne pas 
poursuivre I’analyse. Neanmoins, il est possible de poursuivre plus rigoureusement 
ce raisonnement et de determiner mathematiquement une droite dont la pente nous 
donnera la « tendance ». 

B - Determination de la tendance par la methode des points extremes 

Puisqu’il faut deux points pour tracer une droite, une idee simple consiste a faire 
passer une droite par les deux points extremes de la serie, soit {1997 ; 11,5} et 
{2008 ; 7,7} d’autre part. On obtient alors une droite qui nous indique une tendance 
negative. 


Determination de la tendance par une droite 
passant par les deux points extremes 



Cette methode n’est cependant pas tres satisfaisante car elle ne tient compte que de 
des deux points extremes. Une meilleure methode est celle dite des « moindres 
carres ordinaires » ou MCO en abrege. 
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C - Determination de la tendance par la methode MCO 

Ce nom bizarre vient du fait que la methode consiste a determiner la droite 
d'ajustement en minimisant la somme du carre des ecarts entre cette droite et 
les observations. Les details mathematiques de cette methode importent peu dans 
un cours de statistique descriptive, car I'essentiel est de savoir calculer les 
coordonnees de la droite. De plus, les machines a calculer ainsi que les logiciels 
comme Excel permettent un calcul et un trace facile de cette droite. 

Cette droite, comme toutes les droites, a pour expression I’equation : 

yi = a. ti + b 

oil i varie de 1 an, et ou n est le nombre des observations. 

Les valeurs {t-i, t 2 .t s ,... t n } sont les dates. 

Dans notre exemple les chiffres 1 a 12 (le chiffre 1 correspond a 1997 et le chiffre 12 
correspond a 2008). Les y\ - c'est-a-dire les valeurs tendancielles - ne peuvent etre 
calculees qu'une fois que Ton connaTt a et b. Pour calculer les coefficients a et b, 
nous allons done utiliser les valeurs observees, a savoir la serie : 


{11,5 ; 11,1 ; 10,5 ; 9,1 ; 8,4 ; 8,6 ; 9 ; 9,3 ; 9,3 ; 9,2 ; 8,3 ; 7,7}. 


Les formules de calcul des coefficients a et b sont alors donnees respectivement 
par 23 : 


l 

l 

b = y-at 


23 Ces formules sont donnees ici sans demonstration, le lecteur interesse par une demonstration 
rigoureuse pourra consulter avec profit le livre de PY, Bernard (2007), Statistique descriptive : 
nouvelle methode pour comprendre et bien reussir 5eme edition, Economica. 
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Determination du trend (tendance) par la methodedes mol 

ndres caries 

ordinaires (MCO) 













ti 

yi 

tiyi 

ti £ 







1 

11,5 

11,5 

1 







2 

11,1 

22,2 

4 
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10,5 

31,5 

9 







4 

9,1 

30,4 

10 







5 

3,4 

42 

25 







0 

3,6 

51,6 

30 







7 

9 

03 

49 







3 

9,3 

74,4 

64 







9 

9,3 

33,7 

31 







10 

9,2 

92 

100 







11 

3,3 

91,3 

121 







12 

7.7 

92,4 

144 







7S 

112 

892 

650 







Jl 

J L 
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On calcule ensuite le coefficient a : 









S'/ -n-t-y 

3 - - 1 - 692 728 - 36 --0,251748251 

^f-mt) 2 650 - 507 143 





















r-i 







et on en deduit \e coefficient b : 


b = y-at = 9,333- (-0,251748251 x6,5) = 9,333 + 1,636363636 s 10,97 


On obtient done Tequation du trend quiest : 

y =U f 2517^+10,97 



Nous pouvons alors tracer la droite MCO sur le graphique initial : 
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La methode MCO est plus rigoureuse que la methode des points extremes car elle 
« calcule » la droite de tendance en tenant compte de toutes les observations. 

2 - L’etude de la liaison statistique entre deux variables 

Nous allons maintenant nous interesser a la mise en evidence due relation 
statistique entre deux variables a partir de la methode MCO. Nous prendrons comme 
exemple I’etude de la relation entre prix et quantite d’un produit. 

A - L’exemple d’une fonction de demande 

II est important pour une entreprise d'avoir une bonne idee de la demande qui 
s'adresse a son produit. Comment faire pour connaTtre la fonction de demande pour 
un produit ? 

La premiere idee qui vient a I'esprit consiste a tracer un repere quantite/prix, avec la 
quantite en abscisse et le prix en ordonnee, comme ci-dessous. Supposons que Ton 
dispose pour cela des informations suivantes : 



Prix du produit (euros) 

quantites vendues (millions d'unites) 

2006 

10 

100 

2007 

12 

50 

2008 

15 

30 


Un graphique base sur ces informations donnerait le resultat suivant: 
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La courbe obtenue en joignant les 3 points est bien decroissante et suggere que plus 
le prix augmente, plus la quantite demandee diminue. S'agit-il pour autant d'une 
fonction de demande ? En fait, pas forcement. Le prix et la quantite d'un bien sont 
normalement determines a la fois par I'offre et la demande, du moins lorsque le 
marche est concurrentiel (si le marche n'est pas concurrentiel, les choses n'en sont 
que plus compliquees). Mais, quoiqu’il en soit, le prix et la quantite du produit 
s'etablissent a I'intersection de I'offre et de la demande. 

Ainsi, en fait, les 3 points du graphique precedent sont generalement interprets par 
les economistes comme trois points d'equilibre, ainsi qu'illustre ci-dessous : 



Sur ce graphique, nous voyons en fait que les 3 points precedents sont trois points 
d'equilibre qui resultent de I'intersection de courbes d'offre et de demande. Par 
exemple, en 2008, il s'est vendu 30 millions d'unites au prix unitaire de 15 euros, ce 
qui correspond au point d'equilibre E, qui est a I'intersection des courbes d'offre et de 
demande de I'annee 2008. 

En reliant les 3 observations temporelles pour en faire une courbe de demande, on 
commet sans doute une erreur. On est conduit ainsi a sous-estimer I'elasticite de la 
demande par rapport au prix. Ainsi, par exemple, on pourrait penser qu'une baisse 
du prix de 15 a 14,5 euros a pour effet d'augmenter la demande de 30 a 33 millions 
d'unites. Or en fait, ainsi qu'on peut le voir sur le graphique, une baisse du prix de 15 
a 14,5 entrame une augmentation bien plus importante de la demande (de 30 a 40 
millions). Bien sur, pour que la quantite vendue soit effectivement egale a 40 millions, 
il ne faut pas seulement qu'il y ait un deplacement le long de D 2008 , il faut aussi que la 
courbe d'offre O 2 ooe se deplace de fagon a ce que le nouveau point d'intersection soit 
en E' (ce que nous supposons ici). 
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Cependant, comme illustre sur le graphique ci-dessous, on ne peut pas exclure que 
les 3 observations temporelles correspondent a 3 points sur la fonction de demande. 
Mais cela signifie en fait que la courbe de demande n'a pas change, alors que la 
courbe d'offre s'est deplacee vers la gauche (en supposant que maintenant on 
commence en 2006, puis on continue avec 2007 et ensuite 2008). 

Trois courbes d'offre successives, face a une courbe de demande supposee 
inchangee, constituent ainsi une justification simple de I'estimation d'une courbe de 
demande par un nuage de points constitues de couples prix/quantite observes a 
differents points du temps (de preference en un meme lieu). II existe des analyses 
bien plus subtiles et le lecteur interesse peut se rapporter pour plus de details a un 
ouvrage d’econometrie. 



B - L'equation de regression lineaire 

Passons maintenant a la procedure d'estimation proprement dite, en supposant que 
le modele approprie soit celui decrit par le schema ci-dessus. Cependant, trois 
observations ne suffisent pas pour faire une estimation par la methode des moindres 
carres. Nous allons done : 

• ajouter des observations et pour ce faire 

• changer de cadre temporel (nous allons passer de I'annee au mois). 

Le tableau ci-apres donne les ventes mensuelles et le prix unitaire correspondant. 
Ces valeurs represented les observations qui vont servir a I'estimation de la fonction 
de demande. Ces chiffres, sont inventes pour I'occasion et il serait sans doute plus 
difficile d'obtenir une relation aussi evidente avec des chiffres reels. Cependant, ce 
qui nous interesse principalement ici, e'est d'illustrer la methode. 
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Dates 

Quantite qi 
(milliers d'unites) 

Prix Pi (euros) 

Janvier 

5 

14 

Fevrier 

15 

6 

Mars 

9 

10 

Avril 

14 

9 

Mai 

3 

11 

Juin 

9 

13 

Juillet 

10 

9 

Aout 

17 

6 

Septembre 

11 

5 

Octobre 

16 

3 

Novembre 

7 

11 

Decern b re 

3 

15 


Le graphique en nuage de points (graphique de dispersion) des observations laisse 
presupposer I'existence d'une relation decroissante. Pour que notre graphique soit 
conforme a la presentation traditionnelle du diagramme de demande, nous avons 
mis le prix en ordonnee et la quantite en abscisse. Toutefois, il faut garder present a 
I'esprit le fait qu’au niveau de la causalite economique, c'est la quantite demandee 
qui est fonction du prix et non /'inverse. 


Graphigue en forme (le images de points 



guantite 4gif 


Appliquons maintenant la methode des moindres carres ordinaires introduite pour 
I'analyse du trend. Cette fois, nous devons estimer les coefficients a et b d'une 
equation de la forme p = a * q+b. Par rapport a la formule du trend temporel, il n’y a 
que les symboles qui changent 
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Nous nous attendons ici a ce que le coefficient a soit negatif. Les principaux calculs 
necessaires sont donnes ci-apres : 


Quantity 

qi 

Prix 

P> 


2 

qi 

5 

14 

70 

25 

15 

6 

90 

225 

9 

10 

90 

81 

14 

9 

126 

196 

3 

11 

33 

9 

9 

13 

117 

81 

10 

9 

90 

100 

17 

6 

102 

289 

11 

5 

55 

121 

16 

3 

48 

256 

7 

11 

77 

49 

3 

15 

45 

9 

119 

112 

943 

1441 

A 

A. _ 

A 



9,91666667 98,3402778 1180,08333 9,333333333 1110,66667 


12 


12 

2 A 


12 

2 QiP< 

/-l 


12 

2? 2 

7-1 


^ t 


1 12 
P —yjLlt 

7—1 


nxq 2 


I 12 
7-1 


n q p 


On calcule ensuite le coefficient a : 


2 QtPt q p 


a = 


_ 943-1110,66667 _ -167,66667 _ Q 


Y d q 2 -n{qf 1441 -1180,08333 260,91667 

7-1 


et on en deduit le coefficient b : 


b = p-aq = 9, 33333333-(-0,642606 x 9, 91666667) = 15,706 


On obtient done I'equation du trend qui est : 


p = -0,6426(7-15,706 


Un didacticiel Microsoft est disponible pour I'utilisation directe de la fonction de 
regression sans faire soi-meme les calculs http://office. microsoft.com/fr- 

fr/excel/HA010877851036.aspx 
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On a ainsi la droite de demande decroissante comme illustre sur la figure : 


Estimation d'une fonction de demande par la methode des MCO 



On peut maintenant exprimer p en fonction de q si Ton prefere. Sachant que : 


. 1 b 

p = ekj+b <=> q = — q - — 
<? a 


On a : 


q = - 1,55618* p+24,4413 

On peut ensuite se servir de la fonction de demande ainsi obtenue pour evaluer les 
consequences d'une baisse du prix sur la quantite demandee et done sur la recette 
total e. 
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C - Le coefficient de determination 


Lorsque Ton a estime la droite de regression, on doit se demander ci cette estimation 
est de bonne qualite. On dispose d'un premier outil pour repondre a cette question : 
c'est le coefficient de determination dont la formule est donnee par: 


^ / n 1 

n 


2 





1- 1 l'-* J 

L J 




n 

n Y 


f n \ 2 

nTxf - 


nXrf- 

2>i 

/-I ■ 





Ce coefficient est compris entre 0 et 1. Plus il est proche de 1 et plus la qualite 
globale de la regression est bonne. 

A titre d'exemple, calculons le coefficient de determination de I'equation de 
regression de demande precedent. Remplagons x par q et y par p dans la formule de 
t 2 , afin d'avoir: 


r 


2 


r^QiPi 

i -1 



\ / 






a 

f n 1 

2 " 



f .0 > 

2 " 

nZoi~ 




riZtf ~ 

2> 


f -1 

L J 



s -1 

L'- 1 J 



Un didacticiel Microsoft est disponible ici pour I'obtention directe du coefficient de 
determination sans faire soi-meme les calculs : http://office.microsoft.com/fr- 
fr/excel/HAOl 0877851036.aspx 
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Pour faire les calculs, void comment proceder: 



A 

B 


1 

Quantile 

Prix 

Pt 


2 

5 

14 


3 

15 

6 


4 

9 

10 


5 

14 

9 


6 

3 

11 


7 

9 

13 


0 

10 

9 


9 

17 

6 


10 

11 

5 


11 

16 

3 


12 

7 

11 


13 

.3 

15 



Laformule generale du coefficient de determination estdonnee par: 


r 2 - ■ 



f * V 

Z/i 

Vi-i J 

n2 

n 

n L 

i-l 

f 0 V 

4-2X 

Vi-i J 

f n V 

n Zr?-\ Z Km 

i-l V i-l J J 


En remplacantxi parqi et yi parpL on obtient: 


14 

15 

16 
17 

J0 

19 

20 
21 
22 
23 



Pourtrouver r2, il taut d'abord calculerses differentes comp os antes a I'aide du tableau ci-dessous: 


24 

Quantile 

Pi 

Prix 

Pi 

Pi* Pi 

q 2 

Pi 2 







25 

5 

14 

70 

25 

196 







26 

15 

6 

90 

225 

36 







27 

9 

10 

90 

01 

100 







20 

14 

9 

126 

196 

@1 







29 

.3 

11 

33 

9 

121 







30 

9 

13 

117 

01 

169 







31 

10 

9 

90 

100 

01 







32 

17 

6 

102 

209 

36 







33 

11 

5 

55 

121 

25 







34 

16 

3 

40 

256 

9 







35 

7 

11 

77 

49 

121 



En remplacant dans la formule on obtier 

it: 

36 

3 

15 

45 

9 

225 







37 

119 

112 

943 

1441 

1200 


n 

/ ji \ 

r * M 2 


33 

39 

40 

41 

42 

43 

44 

45 

46 

47 
40 


t t 


t t 




Za 


Za 


Z A A 




I A 2 


fn \ 2 

f n Y 

n 

.0 

n 

; Za I 

ISA; 

" X ZAA 


/7*Z pf 

li-l J 

V i-l J 

i-l 

i-l 

i-l 




14161 


12544 


I 

11316 


17292 


* 

14460 


J 


r = 


i- 1 \i - 1 


Z>, 

Vi-1 


/ ji y 

"Z^H Za ; 

i-l Vi-1 J 


"Za 2 - Za , 

i-l V i-l J 


r 2 : 


[11316-13328] 


[17292 -1416 Ij14400 -12544] 


4048144 = 4048I44 = 6^6184 

3131x1856 5811136 


49 



50 

[i« 

Vi-i 

r - i 

IN 



51 

On peut eviterde faire les calculs ci-dessus en appliquant lafonction EXCEL: 

52 



53 

i 


1 -COEFFICIENT. DETERMMATION(A2B:A39;B28:B39) 1 “► 

0,6966104 

54 



55 

13320 
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Interpretation du resultat : Plus le coefficient r 2 tend vers 1, plus la qualite globale 
de la regression, est bonne. Ici, le r 2 est proche de 0,7. On peut juger que c'est 
insuffisant. II faut de toute maniere completer ce premier diagnostic par le calcul 
d’autres statistiques, mais ceci est I’objet d’un cours d’econometrie et non plus de 
statistique descriptive. 

3 - Le test d’independance du Khi-carre de PEARSON 
A - Introduction 

Le test d’independance du khi-carre (I’ecriture anglaise est « chi-square ») a ete 
developpe par Karl PEARSON (1857-1936), I’un des fondateurs de la statistique 
mathematique. 

L’expression test du khi-carre recouvre plusieurs tests statistiques 24 , trois tests 
principalement: 

• le test d’ajustement ou d’adequation, qui compare globalement la 
distribution observee dans un echantillon statistique a une distribution 
theorique, celle du khi-carre. 

• Le test d'independance du chi-deux qui permet de controler I'independance 
de deux caracteres dans une population donnee. 

• le test d'homogeneite, qui teste si des echantillons sont issus d'une meme 
population. 

Le test qui nous interesse ici est uniquement le test d’independance statistique. 
Ce test sert a apprecier I’existence ou non d’une relation entre deux dimensions au 
sein d’une population, lorsque ces dimensions sont mesurees sur des echelles 
qualitatives et/ou que les modalites de ces echelles de mesure ont ete regroupees 
en categories. On peut bien sur utiliser aussi le test du khi carre pour apprecier 
I’existence d’une relation entre deux dimensions mesurees sur des echelles 
quantitatives groupees en categories, mais le test est moins approprie que la 
regression (sauf si Ton en peut pas remonter aux donnees brutes). On peut enfin 
I’utiliser pour etudier la relation entre une dimension quantitative et une autre 
qualitative. 

A noter que ce test permet de determiner I’existence d’une dependance mais en 
aucun cas le sens de cette dependance (sauf dans certains cas particuliers oil 
I’existence d’une relation implique une causalite univoque comme dans I’exemple ci- 
apres ou le sexe peut avoir une influence sur le choix d’une certaine matiere mais ou 
il est impossible que le choix d’une certaine matiere ait une influence sur le sexe. 

A noter enfin que les differents tests du khi-carre ne doivent pas etre confondus 
avec la distribution theorique du khi-carre, dont les valeurs servent seulement a 
valider ces differents tests. 


24 Une presentation synthetique des differents tests est donnee dans Wikipedia (voir I’article « Test du 
khi-2 ») 
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B - Exemple d’utilisation 25 

Nous allons maintenant montrer comment ce test peut-etre utilise dans le cas d’une 
distribution a deux dimensions. 

La premiere dimension, designee par X, pourra etre une variable ou un caractere, 
comprenant des categories (ou des classes) (issues generalement d’un 

regroupement des valeurs de la variable ou des modalites du caractere). On aura 

ainsi les classes A-i, ..., A, 

U 

La seconde dimension, designee par Y, pourra etre une variable ou un caractere, 
comprenant des categories (ou des classes) (issues generalement d’un 

regroupement des valeurs de la variable ou des modalites du caractere). On aura 
ainsi les classes B-i, ..., A c . 

Dans ces conditions, I’effectif n de la population se distribue dans un tableau croise. 
On designe par riij I’effectif de la population qui appartient simultanement a la classe 
/ de la dimension X et a la classe j de la dimension Y. 

On a schematiquement le tableau suivant: 




3 








i 


n i J 


U 












Ou nsj represente I’effectif qui appartient simultanement a la classe i de la dimension 
X et a la classe j de la dimension Y. Li represente la somme des effectifs appartenant 
a la dimension X (i = 1,..., L) et ou Cj represente la somme des effectifs en colonne 
0=1 .c). 

Exemple : Sexe et preference pour une matiere universitaire 

Soit le tableau ci-dessous, qui donne les resultats d’une enquete hypothetique 
effectuee aupres de 400 etudiants, sur leurs preferences en matiere de cours. On 
leur a demande : « Parmi ces 4 matieres : HPE, Droit, Micro et Macro, laquelle 

preferez-vous ? » (il etait interdit de repondre : « aucune »). 


25 Pour une tres bonne explication de la fagon d’effectuer un test d’independance du khi-2 (ou chi-2), 
voir Charles McCREERY « The CHI-SQUARE test: A test of Association Between Categorical 
Variables ». Sur internet: http://www.celiaqreen.com/charlesmccreery/statistics/chisquare.pdf . Voir 
aussi les explications tres Claires donnees sur BibMath dont nous nous sommes inspires ci-apres : 
http ://www.bibmath.net/dico/index.php3?action=affiche&quoi=./c/ch ideuxtest.html 
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H 

F 

Total 

HPE 

50 

50 

100 

Droit 

110 

25 

135 

Micro 

40 

25 

65 

Macro 

50 

50 

100 

Total 

250 

150 

400 


Faire un test du khi-carre pour savoir si le sexe a une influence significative sur le 
choix des matieres (se rapporter a la table de la distribution du khi-2 theorique en 
annexe). 

On remarque que le droit et la micro sont davantage preferes par la population 
masculine tandis que HPE et macro semblent ne pas etre preferes plus par la 
population masculine que par la population feminine. 

Le test du khi carre va apporter une information supplemental. II va permettre de 
dire si les differences de preferences pour les diverses matieres qui sont attributes 
au sexe sont le fait du hasard du tirage ou si elles sont reelles. Elies peuvent en effet 
etre dues au hasard de I’echantillon. Ce que le test va nous dire c’est dans quelle 
mesure la difference est independante de I’echantillon choisi. 

Pour cela on doit calculer I’expression suivante, dite « khi-carre calcule » : 


* 2 = ££ 

i= I j=l 


( n t j “ e t 




Avec : 


fit — 


Li Oj 
n 
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Calculons d’abord les e/j : Si les deux dimensions etaient totalement 
independantes, les effectifs theoriques e ij remplaceraient les et Ton aurait: 



Homines 

Femmes 

Total 

HPE 

62,5 

37,5 

100 

Droit 

84,375 

50,625 

135 

Micro 

4-0,625 

24,375 

65 

Macro 

62,5 

37,5 

100 

Total 

250 

150 

400 


Ensuite calculons les n jj - e,,j : 



Hommes 

Femmes 

HPE 

-12,5 

12,5 

Droit 

25,625 

-25,625 

Micro 

-0,625 

0,625 

Macro 

-12,5 

12,5 


Puis calculons (n y - eij) 2 : 



Hommes 

Femmes 

HPE 

156,25 

156,25 

Droit 

656,640625 

656,640625 

Micro 

0,390625 

0,390025 

Macro 

156,25 

156,25 


Ensuite calculons (n ,-j - eyj 2 /e/,y: 



Hommes 

Femmes 

HPE 


4,10666667 

Droit 

7,78240741 

12,970679 

Micro 

0,00961538 

0,0160 2564 

Macro 

2,5 

4,16666667 


Ensuite effectuons la somme des huit chiffres obtenus : 

l * 


_ y («<j - f.J 

<=■ i=i 


caicuie 


= 2,5 + 7.782 + 0.00961 + 2.5 + 4.166 + 12. 97 + 0.016 + 4.1666= 34. 11 environ 
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Une fois que Ton connaTt le khi carre calcule, on doit le comparer avec la valeur khi- 
deux issue de la distribution du khi carre (voir le tableau ci-apres). 

Pour trouver cette valeur dans le tableau, nous devons prendre en compte deux 
informations supplementaires : 

• Le nombre de « degres de liberte » qui se calcule ainsi: 

Degres de liberte 

(Nb de categories[ou valeurs ou variables] en ligne - 1) 

x 

(Nb de categories [ou valeurs ou variables] en colonne -1) 

lei, il y a 4 categories en ligne (les 4 matieres) et 2 modalites en colonne (les 
deux sexes). Done, le nombre de degres de liberte est egal a : 

(4 - 1)x(2- 1) = 3x 1 = 3. 

• Ensuite, nous devons choisir la probabilite de fiabilite du test: 5% de chances 
de se tromper, 1% ou 1 pour 1000. Nous allons choisir 5%, soit P = 0,05. 

Nous avons done 3 degres de liberte et une probabilite de fiabilite du test de P=0,05. 
Par consequent, nous voyons dans la table que le khi-carre theorique est egal a : 

05 = 7 ’ 82 

II nous reste maintenant a comparer le khi carre theorique issu de la table (7,82) 
avec le khi-carre calcule (34,11 environ): 

2 2 
^0.05 = ^,82 < ^ ca ] cu i£ = 34,11 


La regie est la suivante : 

Si le khi-carre calcule est inferieur au khi-carre theorique : independance 
Si le khi-carre calcule est superieur au khi-carre theorique : dependance 

Etant donne que le chi-carre calcule est superieur au khi carre theorique, nous 
pouvons conclure que le sexe a une influence sur le choix de la matiere. Notre 
observation initiale sur la base de I’echantillon est done probablement vraie a 
I’exterieur de I’echantillon (avec cependant 5% de chances de nous tromper). 
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Degres de 
liberte 

P=0,05 

P=0,01 

P=0,001 

Degres de 
liberte 

P=0,05 

P=0,01 

P=0,001 

1 

3.84 

6.64 

10.33 

50 

67.51 

76.15 

36.66 

2 

5.99 

9.21 

13.32 

51 

63.67 

77.39 

37.97 

3 

, 7.32 v 

11.35 

16.27 

52 

69.33 

73.62 

39.27 

4 

9.49 

13.23 

13.47 

53 

70.99 

79.34 

90.57 

5 

1107 

15.09 

20.52 

54 

72.15 

31.07 

91.33 

6 

12.59 

16.81 

22.46 

55 

73.31 

32.29 

93.17 

7 

14.07 

13.43 

24.32 

56 

74 47 

33.52 

94,47 

S 

15.51 

20.09 

26.13 

57 

75.62 

34.73 

95.75 

9 

16.92 

21.67 

27.33 

53 

76.73 

35.95 

97.03 

10 

18.31 

23.21 

29.59 

59 

77.93 

37.17 

93.34 

11 

19.68 

24.73 

31.26 

60 

79.03 

33.33 

99.62 

12 

21.03 

26.22 

32.91 

61 

30.23 

39.59 

100.33 

13 

22.36 

27.69 

34.53 

62 

31.33 

90.30 

102.15 

14 

23.69 

29.14 

36.12 

63 

32.53 

92.01 

103.46 

15 

25.00 

30.58 

37.70 

64 

33.63 

93.22 

104.72 

10 

26.30 

32.00 

39.25 

65 

34.32 

94.42 

105.97 

17 

27.59 

33.41 

40.79 

66 

35.97 

95.63 

107.26 

10 

28.87 

34.31 

42.31 

67 

37.11 

96.33 

103.54 

19 

30.14 

36.19 

43.32 

63 

33.25 

93.03 

109.79 

20 

31.41 

37.57 

45.32 

69 

39.39 

99.23 

111.06 

21 

32.67 

33.93 

46.30 

70 

90.53 

100.42 

112.31 

22 

33.92 

40.29 

43.27 

71 

91.67 

101.62 

113.56 

23 

35.17 

41.64 

49.73 

72 

92.31 

102.32 

114.34 

24 

36.42 

42.98 

51.18 

73 

93.95 

104.01 

116.03 

74 

95.03 

105.20 

117.35 

25 

37.65 

44,31 

52.62 

75 

96.22 

106.39 

113.60 

26 

33.39 

45.64 

54.05 

76 

97.35 

107.53 

119.35 

27 

40.11 

46.96 

55.43 

77 

93.49 

103.77 

121.11 

23 

41.34 

43.23 

56.39 

73 

99.62 

109.96 

122.36 

29 

42.56 

49.59 

53.30 

79 

100.75 

111.15 

123.60 

30 

43.77 

50.39 

59.70 

30 

101.33 

112.33 

124.34 

31 

44.99 

52.19 

61.10 

31 

103.01 

113.51 

126.09 

32 

46.19 

53.49 

62.49 

32 

104.14 

114.70 

127.33 

33 

47.40 

54.73 

63.37 

33 

105.27 

115.33 

123.57 

34 

43.60 

56.06 

65.25 

34 

106.40 

117.06 

129.30 

35 

49.30 

57.34 

66.62 

35 

107.52 

113.24 

131.04 

36 

51.00 

53.62 

67.99 

36 

103.65 

119.41 

132.23 

37 

52.19 

59.89 

69.35 

37 

109.77 

120.59 

133.51 

33 

53.33 

61.16 

70.71 

33 

110.90 

121.77 

134.74 

39 

54.57 

62.43 

72.06 

39 

112.02 

122.94 

135.96 

40 

55.76 

63.69 

73.41 

90 

113.15 

124.12 

137.19 

41 

56.94 

64.95 

74.75 

91 

114.27 

125.29 

133.45 

42 

58.12 

66.21 

76.09 

92 

115.39 

126.46 

139.66 

43 

59.30 

67.46 

77.42 

93 

116.51 

127.63 

140.90 

44 

60.48 

63.71 

73.75 

94 

117.63 

123.30 

142.12 

45 

61.66 

69.96 

30.03 

95 

113.75 

129.97 

143.32 

46 

62.83 

71.20 

31.40 

96 

119.37 

131.14 

144.55 

47 

64.00 

72.44 

32.72 

97 

120.99 

132.31 

145.73 

43 

65.17 

73.63 

34.03 

93 

122.11 

133.47 

146.99 

49 

66.34 

74.92 

85.35 

99 

123.23 

134.64 

143.21 

50 

67.51 

76.15 

86.66 

100 

124.34 

135.31 

149.43 


Source de la table : 


h 


:tp://www.ento. vt.edu/~sharov/PopEcol/tables/chisq.html 
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4 - Resume 


Ce chapitre a montre I’utilisation d’un meme outil statistique, 1‘ajustement lineaire, 
appele aussi « methode des Moindres Carres Ordinaires (MCO) pour la mise en 
evidence de la tendance d’une serie chronologique, puis pour la mise en evidence 
d’une correlation entre deux variables. L’etude de la correlation entre deux 
variables statistiques peut etre affinee par le calcul du coefficient de determination. 

Lorsqu’on s’interesse a la correlation entre deux caracteres ou entre une variable et 
un caractere, ou lorsque les donnees sont regroupees en categories, le plus 
simple est de recourir au test d’independance du khi-carre de Karl PEARSON. 

II existe d’autres outils plus elabores pour etudier les correlations entre variables 
et/ou caracteres, mais ceux-ci relevent alors d’un cours d’econometrie et/ou de 
statistique mathematique. 
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Chapitre 7 

Courbe de LORENZ et coefficient de GINI 


0 - Introduction 
1 - La courbe de LORENZ 

A - L’exemple de la repartition des superficies de I’UE a 27 

B - L’utilite de la courbe de LORENZ pour les comparaisons 

C - Cas general 

2- Le coefficient de GINI 
A - Definition 
B - Formules de calcul 
C - Exemple 

3 - Resume 

0 - Introduction 

Max Otto LORENZ (1880 -1962) est I’economiste americain qui inventa le concept 
de courbe de LORENZ en 1905. II s’agissait pour lui de decrire et de mesurer les 
inegalites de revenu. Par la suite, cette courbe qu’il fut le premier a utiliser servit plus 
generalement a representer visuellement la fagon dont se repartit une masse 
(salariale, de revenus, de richesses, etc.) au sein d’une population pour se faire une 
idee du caractere plus ou moins egalitaire de la repartition de cette masse au sein de 
la population et comparer ainsi differentes populations entre elles ou comparer la 
distribution d’une masse au sein d’une population en deux ou plusieurs points du 
temps afin de savoir si I’inegalite augmente ou diminue 26 . 

Corrado GINI (1884 -1965) est le statisticien, demographe, ethnologue, sociologue 
et ideologue italien a qui on doit le coefficient de GINI une mesure de I'inegalite 
associe a la la courbe de LORENZ. 

En pratique, lorsqu’on s’interesse a la repartition d’une masse au sein d’une 
population, on trace d’abord une courbe de LORENZ afin d’avoir une idee visuelle 
de I’egalite ou de I’inegalite de cette repartition. Ensuite, si Ton desire resumer cette 
inegalite par un chiffre, on calcule le coefficient de GINI. 

1 - La courbe de LORENZ 

A - L’exemple de la repartition des surfaces des 27 pays de I’UE 

Pour introduire la courbe de LORENZ, prenons I’exemple de la repartition des 
superficies au sein de I’UE a 27. Ci-apres, un extrait du tableau 1 , ou les 27 pays 
de I’UE ont ete classes par ordre de surface croissante (colonne 2), en partant de 
Malte (316 km2) jusqu’a la France metropolitaine (547030 km2). 


26 L’expression « courbe de LORENZ » a probablement ete utilisee pour la premiere fois en 1912 
dans le manuel de W. I. KING, The Elements of Statistical Method. New York: Macmillan. 
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La colonne 3 est simplement un cumul des pays de 0 a 27. La colonne 4 est un 
cumul des surperficies des pays. 

La colonne 5 reprend les chiffres de la colonne 3 divises par 27 (nombre total des 
pays) et multiplie par 100. 

La colonne 6 reprend les chiffres de la colonne 4 divises par 4236271 (surface totale 
de I’UE a 27) et multiplie par 100. 


Les chiffres des colonnes 5 et 6 nous permettent d’evaluer I’ampleur de I’inegalite de 
la repartition des surfaces au sein des pays de I’UE a 27 

Tableau pour la construction d’une courbe de LORENZ 
de la repartition des superficies de I’UE a 27 


Pays 

Superficie 
(km 2) 

Cumul des pays 

Cumul des 
superficies 

Cumul des pays 
(en %) 

Cumul des 
superficies 
(%) 



0 

0 

0.0 

0.00 

Malte 

316 

1 

316 

3,7 

0.01 

Luxembourg 

2586 

2 

2902 

7.4 

0.07 

C hyp re 

9250 

3 

12152 

11,1 

0,28 

Slovenie 

20253 

4 

32405 

14.8 

0.75 

Belgique 

30528 

5 

62933 

18.5 

1,45 

Pays-Bas 

41526 

6 

104459 

22,2 

2,41 

Danemark 

43094 

7 

147553 

25.9 

3,41 

Estonie 

45226 

8 

192779 

29.6 

4.46 

Slovaquie 

48845 

9 

241624 

33,3 

5,59 

Lettonie 

64589 

10 

306213 

37.0 

7.08 

Lituanie 

65200 

11 

371413 

40.7 

8.59 

Irlande 

70280 

12 

441693 

44.4 

10,21 

Republique tcheque 

78866 

13 

520559 

48.1 

12.03 

Aut riche 

83858 

14 

604417 

51.9 

13.97 

Portugal 

92931 

15 

697348 

55 ; 6 

16,12 

Hongrie 

93030 

16 

790378 

59.3 

18,27 

Bulgarie 

110910 

17 

901288 

63.0 

20.83 

Grece 

131940 

18 

1033228 

66,7 

23.88 

Roumanie 

238391 

19 

1271619 

70.4 

29.39 

Roya Lime-Uni 

244820 

20 

1516439 

74.1 

35.05 

Italie 

301320 

21 

1817759 

77,8 

42,02 

Pologne 

312685 

22 

2130444 

81.5 

49,24 

Finlande 

337030 

23 

2467474 

85,2 

57.03 

Allemagne 

357021 

24 

2824495 

88.9 

65.29 

Suede 

449964 

25 

3274459 

92,6 

75.69 

Espaqne 

504782 

26 

3779241 

96.3 

87,36 

France 

547030 

27 

4326271 

100.0 

100.00 


Le graphique ci-apres represente une courbe de LORENZ. En abscisse, c’est le 
pourcentage cumule de la population statistique qui est mesure (ici la population 
statistique est constitute par les 27 pays), autrement dit les chiffres de la colonne 5 
du tableau. En ordonnee, c’est le pourcentage cumule des surfaces qui est mesure, 
autrement dit les chiffres de la colonne 6 du tableau. 

La courbe de LORENZ s’inscrit done dans un carre. Pour apprecier I’inegalite, on doit 
comparer cette courbe (en rouge sur le graphique) avec la droite d’egalite parfaite 
qui correspond a la diagonale (droite en vert). 
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Si les surfaces etaient parfaitement distributes 10% des pays representeraient 10% 
de la surface totale de I’UE a 27, 20% des pays representeraient 20% de la surface 
totale, etc. Or, c’est loin d’etre le cas puisque il faut 22 pays (81,5% des pays) pour 
atteindre 49,24% de la surface de I’UE a 27). 

Courbe de LORENZ de la repartition des surfaces des pays de I’UE a 27 



0 10 20 30 40 SO 60 70 30 90 LOO 

Pourcentage cumule des superficies 


B - L’utilite de la courbe de LORENZ pour les comparaisons 

Soit maintenant un autre exemple concernant cette fois la masse salariale des deux 
filiales A et B d’une entreprise et sa repartition entre les salaries. Pour simplifier, 
nous supposons qu’il y a 20 salaries dans chaque entreprise. Les salaires mensuels 
en euros sont donnes par le tableau ci-apres qui detaille egalement les calculs des 
deux series necessaires au trace de la courbe de LORENZ. 
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Comparaisons de la distribution des salaires dans les filiales A et B d’une entreprise XXX 
et calculs necessaires pour le trace de la courbe de LORENZ 


Salaires mensuels nets (€) 





Cumuls salaires 

Cumuls s 

a ; 

aires (%) 

Filiale A ; 

."Filiale B 

Cumuls salaries 


Cumuls salaries (%) 


Filiale A 

Filiale B 1 

i 


Filiale A 


Filiale B 



0 


0 


0 

0 


0 


0 

1300 

1500 

1 


5 


1300 

1500 


2 


3 

1350 

1500 

2 


10 


2650 

3000 


4 


6 

1350 

1500 

3 


15 


4000 

4500 


6 


9 

1350 

1550 

4 


20 


5350 

6050 


8 


12 

1500 

1550 

5 


25 


6350 

7600 


10 


16 

1500 

1600 

6 


30 


8350 

9200 


12 


19 

1500 

1700 

7 


35 


9350 

10900 


15 


23 

1600 

1700 

8 


40 


11450 

12600 


17 


26 

1700 

1740 

9 


45 


13150 

14340 


19 


30 

1800 

1800 

10 


50 


14950 

16140 


22 


33 

1820 

1840 

11 


55 


16770 

17980 


25 


37 

1900 

1850 

12 


60 


18670 

19830 


28 


41 

2000 

1870 

13 


65 


20670 

21700 


31 


45 

2000 

1900 

14 


70 


22670 

23600 


34 


49 

2400 

1920 

15 


75 


25070 

25520 


37 


53 

2400 

1940 

16 


80 


27470 

27460 


41 


57 

5000 

1960 

17 


85 


32470 

29420 


48 


61 

9000 

5000 

13 


90 


41470 

34420 


61 


71 

12000 

6000 

19 


95 


53470 

40420 


79 


33 

14000 

8000 

20 


100 


67470 

48420 


100 


100 


A 


e 


Abcisse de la 
courbe de LORENZ 


Ordonnees de la courbe de LORENZ 













































Courbes de LORENZ des salaires des filiales A et B 


Cumuls des 
salaires en % 



Cumuls des 
salaries en % 


Sur le graphique ci-dessus, on constate que c’est la courbe de LORENZ de la filiale 
B qui est la plus proche de la droite d’egalite parfaite. C’est done dans la filiale B que 
I’inegalite de la repartition des salaires est la moins grande. Par exemple, on voit que 
dans la filiale A, 50% des salaries regoivent seulement 22% de la masse salariale, 
alors que dans la filiale B, 50 % des salaries regoivent 33% de la masse salariale 
(voir les chiffres encadres dans le tableau precedent). Si la distribution etait 
parfaitement egalitaire, 50% des salaries devraient recevoir 50% de la masse 
salariale. 

C - Cas general 

De fagon generale, plus une courbe de LORENZ se rapproche de la droite d’egalite 
parfaite et plus la repartition de la masse consideree au sein de la population est 
egalitaire. En effet, dans ce cas, la masse (des salaires, de la richesse, du revenu, 
etc.) est peu concentree sur quelques uns. 

Inversement, plus une courbe de LORENZ s’eloigne de la droite d’egalite parfaite et 
plus la repartition de la masse consideree au sein de la population est inegalitaire car 
la masse (des salaires, de la richesse, du revenu) est alors concentree sur un petit 
nombre d’unites statistiques. 





































3 cas typiques, dont les deux cas limites, sont represents par les graphiques ci-dessous 


Cas numero 1 


Cas numero 2 


Cas numero 3 


yf %-cumulede 
la masse a repartir 



% cumule de 
la population 



la courbe 

de LORENZ se confond avec 
la droite OC d'egalite 
parfaite. Chaque individu 
de la population possede la 
meme part de la masse 
totale 


la 

courbe de LORENZ partage 
le triangle OCD est deux 
surfaces. Plus la surface A 
augmente aux depends de 
la surface B et plus 
I'inegalite augmente 


la courbe 
de LORENZ est donne OCD. 
La surface A occupe tout le 
triangle OCD et la surface B 
a dlsparu. C'est le cas 
theorique ou un seul 
individu possede 100% de la 
masse totale et les autres 
rien. 














2 - Le coefficient de GINI 


A - Definition 

Le coefficient de Corrado GINI (1884 -1965) est une mesure de I'inegalite associee 
a la courbe de LORENZ. II est donne par la formule : 


A + B 

Ou A represente la surface comprise entre la courbe de LORENZ et la droite 
d’egalite parfaite et B represente la surface situee sous la droite d’egalite parfaite 
moins la surface A. Le meilleur indicateur visuel de cette formule est le cas 
numero 2 du tableau ci-avant. 

Le coefficient de GINI est compris entre zero et 1. En cas d’egalite parfaite, il est egal 
a zero (car A=0). En cas d’inegalite totale il est egal a 1, car B=0. Par consequent, a 
mesure que G augmente de zero a 1, I’inegalite de la repartition augmente. Le 
coefficient de GINI permet ainsi de faire de nombreuses comparaisons. 

Sachant que la courbe de LORENZ est inscrite dans un carre de 1 x 1, on voit que la 
surface A+B est egale a la moitie de cette surface. On a done : 

A + B = - 

2 

On peut de ce fait ecrire : 

A _ A 

A + B ~ 1 
2 






A + B = - 

2 



De plus, comme : 




De ce fait on peut ecrire que : 


G = 


A 




A + B 


= 2A = 2 


1 


■\ 




— B 

2 j 


1-2 B 


B - Formules de calcul 

II existe plusieurs formules de calcul du coefficient de GINI. Nous adopterons I’une 
des plus utilisees qui est donnee dans la notice explicative de la Banque mondiale 
pour le calcul de I’inegalite des repartitions 27 , parfois dite «formule de BROWN ». 
Cette formule s’ecrit: 


G = i-Z(x,-x,-,)(Y,+r M ) 

i= 1 

oil X est la part cumulee de la population, et Y la part cumulee de la masse a 
repartir. Dans le cas qui nous interesse ici, comme les donnees sont connues 
individuellement cette formule peut se simplifier a : 

G=i--Z(r+r-,) 

n 

Ou n represente le nombre d’unites statistiques (la population). 

Nous allons voir que ces deux formules donnent des resultats identiques. 

C - Exemple 

Reprenons I’exemple des deuxfiliales de la meme entreprise et calculons d’abord les 
deux coefficients de GINI a I’aide la premiere formule, soit: 


i— I 

Les 2 tableaux ci-apres montrent comment les calculs doivent etre disposes pour 
parvenir rapidement au resultat. 


27 Voir http://info.worldbank.orq/etools/docs/library/103072/ch6.pdf , page 3 
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Calcul du coefficient de GINI de la filiale A selon la formule 


1 = 1 


A 

B 

C 

D E F 

G H 1 

Salaires 
mensuels 
filiale A 

Frequences 

salaires 

mensuels 

Frequences 

cumulees salaires mensuels 
(VI) 



Nombre de salaries 

Frequence 
des salaries 

Frequence cumulee 
des salaries 

<*) 





(X,-X ,_,) 





1300 

0.019 

0.019 

0.019 

1 

0.05 

0.05 

0.05 

0.00096 

1350 

0.020 

0,039 

0,059 

1 

0,05 

0,1 

0,05 

0,00293 

1350 

0 ; 020 

0,059 

0,099 

1 

0,05 

0,15 

0,05 

0,00493 

1350 

0.020 

0,079 

0.139 

1 

0.05 

0,2 

0,05 

0,00693 

1500 

0.022 

0.102 

0,181 

1 

0.05 

0,25 

0,05 

0.00904 

1500 

0,022 

0,124 

0,22.5 

1 

0,05 

0,3 

0,05 

0,01126 

1500 

0.022 

0.146 

0,270 

1 

0.05 

0.35 

0,05 

0.01349 

1600 

0.024 

0,170 

0,316 

1 

0,05 

0.4 

0,05 

0,01578 

1700 

0,025 

0,195 

0,365 

1 

0,05 

0,45 

0,05 

0,01823 

1800 

0 : 027 

0,222 

0,416 

1 

0,05 

0,5 

0,05 

0,02082 

1820 

0.027 

0,249 

0.470 

1 

0.05 

0,55 

0,05 

0,02351 

1900 

0.028 

0,277 

0.525 

1 

0.05 

0,6 

0.05 

0,02626 

2000 

0.030 

0,306 

0.583 

1 

0.05 

0,65 

0,05 

0.02915 

2000 

0.030 

0.336 

0.642 

1 

0.05 

0,7 

0,05 

0,03212 

2400 

0,036 

0,372 

0,708 

1 

0,05 

0,75 

0,05 

0,03538 

2400 

0,036 

0,407 

0,779 

1 

0,05 

0,8 

0,05 

0,03894 

5000 

0.074 

0.481 

0.888 

1 

0.05 

0,85 

0,05 

0,04442 

9000 

0.133 

0.615 

1,096 

1 

0.05 

0,9 

0,05 

0,05479 

12000 

0.178 

0.793 

1,407 

1 

0.05 

0,95 

0,05 

0,07036 

14000 

0.207 

1,000 

1,793 

1 

0.05 

1 

0,05 

0.08963 

67470 



20 


0,54893 




0,45107 

















20 






G = 1-Y j (X i -X ia ){Y i +Y m ) = 1 - 0,54893 = 0,45107 











i =1 















































Calcul du coefficient de GINI de la filiale B selon la formule 



n 


1 - x,- t )(Y,+r M ) 

1 = 1 


A 

B 

e 

D | E | F | G H I 

Salaires 
mensuels 
filiale B 

Frequences 

salaires 

mensuels 

Frequences 

currmlees salaires mensuels 
(Vi) 



Nombre de salaries 

Frequence 
des salaries 

Frequence cumulee 
des salaries 

(Xi) 

(*, -A'm) 







1500 

0,031 

0,031 

0,031 

1 

0,05 

0,05 

0.05 

0,00155 

1500 

0.031 

0,062 

0,093 

1 

0,05 

0,1 

0.05 

0.00465 

1500 

0.031 

0,093 

0,155 

1 

0,05 

0,15 

0,05 

0.00774 

1550 

0.032 

0,125 

0 ; 218 

1 

0,05 

0,2 

0,05 

0.01089 

1550 

0.032 

0,157 

0,282 

1 

0.05 

0,25 

0.05 

0.01410 

1600 

0.033 

0,190 

0,347 

1 

0.05 

0,3 

0.05 

0.01735 

1700 

0.035 

0,225 

0,415 

1 

0.05 

0,35 

0.05 

0.02076 

1700 

0.035 

0,260 

0,485 

1 

0.05 

0,4 

0.05 

0.02427 

1740 

0,036 

0,296 

0,556 

1 

0,05 

0,45 

0.05 

0,02782 

1800 

0,037 

0,333 

0,629 

1 

0,05 

0,5 

0.05 

0,03147 

1840 

0 ; 038 

0,371 

0,705 

1 

0,05 

0,55 

0,05 

0,03523 

1850 

0,038 

0,410 

0,781 

1 

0,05 

0,6 

0,05 

0,03904 

1870 

0.039 

0,448 

0,858 

1 

0,05 

0,65 

0,05 

0,04289 

1900 

0,039 

0,487 

0,936 

1 

0,05 

0,7 

0,05 

0,04678 

1920 

0.040 

0,527 

1,014 

1 

0,05 

0,75 

0,05 

0,05072 

1940 

0.040 

0,567 

1,094 

1 

0,05 

0,8 

0,05 

0,05471 

1960 

0.040 

0,608 

1,175 

1 

0,05 

0,85 

0,05 

0,05874 

5000 

0.103 

0,711 

1,318 

1 

0,05 

0,9 

0,05 

0,06592 

6000 

0,124 

0,835 

1,546 

1 

0,05 

0,95 

0,05 

0,07728 

8000 

0,165 

1,000 

1,835 

1 

0,05 

1 

0,05 

0,09174 

| 48420 | 



20 


0,72365 




0,27635 

















20 






G = 1 ■- £ ( X t - ) (7 + Y m ) = 1 - 0, 72365 = 0, 27635 











f=i 
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On constate que le coefficient de GIN I de la filiale A est beaucoup plus eleve que 
celui de la filiale B, indiquant que la distribution de la masse salariale y est plus 
inegalitaire. En effet, on a : 

Coefficient de GIN I de la filiale A = 0,45107 
Coefficient de GIN I de la filiale B = 0,27635 

Voyons maintenant comment disposer les calculs en appliquant la deuxieme formule 
(qui est plus simple et plus rapide tout en donnant les memes resultats) 

Calcul du coefficient de GINI de la filiale A selon la formule : 

n i=i 

ABC D E 


Salaires 
mensuels 
filiale A 

Frequences 

salaires 

mensuels 

Frequences 

currmlees salaires mensuels 

(Vi) 

(7+7+0 

1300 

0.019 

0,01927 

0,01927 

1350 

0.020 

0,03923 

0,05854 

1350 

0.020 

0.05929 

0,09856 

1350 

0.020 

0.07929 

0,13853 

1500 

0.022 

0,10153 

0,18082 

1500 

0.022 

0,12376 

0,22529 

1500 

0,022 

0,14599 

0,26975 

1600 

0.024 

0,16971 

0,31570 

1700 

0.025 

0,19490 

0,36461 

1800 

0.027 

0.22153 

0,41643 

1820 

0.027 

0,24355 

0,47013 

1900 

0.028 

0,27672 

0,52527 

2000 

0.030 

0,30636 

0,58307 

2000 

0,030 

0,33600 

0,64236 

2400 

0.036 

0,37157 

0,70757 

2400 

0.036 

0,40714 

0,77872 

5000 

0.074 

0.48125 

0,88839 

9000 

0,133 

0,61464 

1,09539 

12000 

0,178 

0,79250 

1,40714 

14000 

0,207 

1,00000 

1,79250 

67470' 

10,97866 


0,54393 
^ 0,45107 


1 20 

G = l-—X(r i +Y i+l ) = l-0,54S93 = 0,<45107 

2U J= i 





























Calcul du coefficient de GINI de la filiale B selon la formule : 


G-l—Ztt + U 

« i=l 


A 

Salaires 
mensuels 
filiale B 


B 

Frequences 

salaires 

mensuels 


C 

Frequences 

cumulees salaires mensuels 

mi 




1500 


0.031 


0.03098 


0.03098 


1500 


0.031 


0.06196 


0.09294 


1500 


0.031 


0.09294 


0.15489 


1550 


0.032 


0.12495 


0.21789 


1550 


0.032 


0.15696 


0.28191 


1600 


0.033 


0.19000 


0.34696 


1700 


0.035 


0,22511 


0.41512 


1700 


0.035 


0.26022 


0.48534 


1740 


0.036 


0.29616 


0.55638 


1800 


0.037 


0.33333 


0,62949 


1840 


0.038 


0.37133 


0.70467 


1850 


0.038 


0.40954 


0.78088 


1870 


0.039 


0.44816 


0.85770 


1900 


0.039 


0.48740 


0.93556 


1920 


0.040 


0.52705 


1.01446 


1940 


0.040 


0.56712 


1.09418 


1960 


0.040 


0.60760 


1.17472 


5000 


0.103 


0.71086 


1,31846 


6000 


0,124 


0.83478 


1.54564 


8000 


0.165 


1.00000 


1.83478 


48420 


14,47295 

0,72365 

0,27635 


20 


G = 1- + Y I+l ) = 1 - 0, 72365 = 0,27635 

20 J= i 


On constate que les coefficients de GINI de la filiale A et de la filiale B obtenus avec 
la seconde formule sont identiques a ceux obtenus avec la premiere formule. On 

pourra done preferer utiliser la seconde formule dans les calculs (lorsque les 
donnees sont connues individuellement) car elle est la plus simple. 

3 - Resume 

La courbe de GINI sert a representer visuellement la fagon dont se repartit une 
masse (salariale, de revenus, de richesses, etc.) au sein d’une population pour se 
faire une idee du caractere plus ou moins egalitaire de la repartition de cette masse 
au sein de la population et comparer ainsi differentes populations entre elles ou 
comparer la distribution d’une masse au sein d’une population en deux ou plusieurs 
points du temps afin de savoir si I’inegalite augmente ou diminue. 
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Le coefficient de GINI est quant a lui un indicateur statistique, compris entre 0 et 1, 
qui sert a mesurer le degre d’inegalite de la repartition d’une masse au sein d’une 
population statistique. 
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